fbpx

Machine Learning e il rischio di credito: il caso dei rating sovrani

I rating sovereign per la valutazione dei debiti pubblici nazionali

Il Project Work svolto per conto di Cassa Depositi e Prestiti (CDP) muove dall’esigenza di ottenere un riferimento quantitativo del rating attribuibile ad emittenti di tipo sovereign.

Si definisce rating il giudizio che viene espresso da un soggetto esterno e indipendente, l’agenzia di rating, sulle capacità e volontà di un emittente di onorare i propri impegni. Nel caso specifico, i rating sui debiti sovrani rappresentano la valutazione circa la capacità di uno Stato di adempiere alle proprie obbligazioni puntualmente e integralmente. 

Il giudizio delle principali agenzie – Standard &Poor’s, Moody’s e Fitch – viene classificato in 22 classi (c.d. notch), ordinate in senso decrescente: gli emittenti che ottengono un rating compreso tra le classi 22 e 13 sono considerate investment grade in quanto presentano un basso rischio di insolvenza; gli emittenti con rating inferiore sono definiti speculative grade, in quanto presentano un alto rischio di non onorare le proprie obbligazioni. L’analisi delle metodologie di rating delle tre agenzie mostra come i processi siano molto simili tra loro: si sostanziano in modelli analitici basati su regressioni lineari da correzioni (upgrade/downgrade di +/- 3 notch) effettuate dai rating committee, i quali assumono un peso fondamentale nell’attribuire il rating finale. E’ evidente il rischio di un bias, una distorsione dovuta alla componente soggettiva del giudizio che può portare a considerare più volte aspetti già ponderati nei modelli analitici. Tale problematica assume notevole importanza visto l’impatto dei rating sui mercati finanziari: le agenzie hanno un ruolo fondamentale nel fornire agli investitori un’opinione sul merito creditizio dei debitori sovrani, in modo da restringere le asimmetrie informative contribuendo ad una maggiore efficienza del mercato.

Il Machine Learning per l’attribuzione dei rating sovrani

Per tali ragioni il fine della ricerca è quello di implementare, tramite tecniche di Machine Learning (ML) di tipo Supervised, dei modelli quantitativi per ottenere risultati il più possibile unbiased e consistenti, ovvero rendere potenzialmente maggiormente efficiente il processo di attribuzione del Rating Sovereign. Gli algoritmi utilizzati, costruiti in Python, sono il Random Forest Regression (RFR) ed il Support Vector Regression (SVR), entrambi confrontate con un modello di regressione lineare in ML utilizzato come benchmark. 

L’obiettivo del Project Work è duplice: 

  • verificare che i sopracitati modelli di apprendimento automatico siano applicabili e sufficientemente accurati nel prevedere i rating (data la numerosità contenuta del dataset);
  • constatare la presenza di eventuali bias nella formazione del rating e, in qualche misura, poterli correggere.

Il dataset utilizzato – fornito da CDP – si compone di 24 variabili osservate per 129 diversi Paesi. Lo studio condotto è, dunque, di tipo cross-sezionale e l’istante temporale utilizzato per la raccolta dei dati è il 31/12/2020. 

Le variabili adoperate possono essere classificate in 3 macrogruppi: 

  • rating mediano (variabile dipendente), ottenuto considerando i giudizi assegnati dalle tre agenzie;
  • variabili macroeconomiche, con particolare riferimento a GDP e sue trasformazioni, debito sovrano e composizione, variabili dicotomiche;
  • indicatori ESG, ad oggi relativamente trascurati dalle principali agenzie di rating.

L’analisi empirica prevede la ripartizione del campione utilizzando una tecnica di cross validation. Utilizzando il metodo hold-out, i Paesi sono suddivisi in un gruppo di train (il 75%, 96 paesi) ed uno di test (25%, 33 paesi): il primo serve ad addestrare i modelli, il secondo a verificarne la capacità previsiva. Si specifica che tale ripartizione resta immutata tra le diverse tecniche adottate al fine di garantire una più immediata comparabilità tra i risultati ottenuti.

Modelli statistici per il Machine Learning

Il primo modello implementato è la regressione lineare in Machine Learning. Le variabili esplicative ottimali sono state ottenute utilizzando la metodologia c.d. Stepwise Regression. La performance del modello calcolata esclusivamente sul test set, dimostra che il 73% dei rating previsti si collocano entro +/- 1 notch rispetto a quelli assegnati dalle agenzie.

Il modello Random Forest Regression utilizza, invece, una tecnica di ricampionamento casuale (cd. Bagging) per ottenere una combinazione di 100 alberi decisionali: si incrementa così la capacità predittiva del modello rispetto all’utilizzo di un singolo albero decisionale. Attraverso diversi nodi definiti a seconda di valori soglia delle variabili predittive, ogni Paese viene assegnato ad una foglia finale dell’albero con il relativo rating. Le performance di tale modello risultano, rispetto alla regressione lineare, leggermente inferiori: i Paesi con rating stimato entro +/-1 notch sono il 67% del test set.

L’algoritmo Support Vector Regression cerca di trovare l’iperpiano ottimale che sintetizza le N variabili raccolte per gli Stati del dataset. A differenza della regressione lineare (che minimizza l’errore di stima), il SVR massimizza il numero di punti all’interno di ciascuna regione corretta, dato un intervallo di errore. Tale modello risulta il meno accurato, in quanto solo il 45% delle stime sui Paesi rientra in un intervallo di +/- 1 notch nel test. Questo è da ricondurre, probabilmente, alla ridotta numerosità campionaria: in letteratura risulta che l’SVR è, tra i tre modelli, quello più sensibile all’inserimento di eventuali nuove variabili.

L’analisi degli output ottenuti dai modelli di Machine Learning consente di mettere in relazione le predizioni sui rating dei Paesi rispetto ai valori reali già noti: l’obiettivo è quello di comprendere le modalità con le quali gli algoritmi tendono a predire ed assegnare i rating rispetto ai giudizi pubblici. Il SVR è il modello che presenta maggiori differenze rispetto ai rating delle agenzie. Solo il 13% dei rating vengono classificati nello stesso notch, e la performance peggiora se si considera un intervallo entro 1 notch, dove risultano performance del 63% (regressione lineare) e del 86% (RFR). Il Random Forest Regression presenta la migliore performance sul campione complessivo: classifica i vari Paesi entro 2 notch di differenza nel 94% dei casi, mentre appare leggermente inferiore alla regressione lineare sul solo test set. Alla luce di queste differenze risulta interessante considerare il valore medio delle tre previsioni per ottenere un risultato che sintetizzi le informazioni ed attenui il peso di previsioni anomale. Queste, pur impattando poco sulla performance dei singoli modelli, risulterebbero infatti poco plausibili in ottica di valutazione creditizia.

La performance media dei modelli confrontata con i rating assegnati ai singoli paesi offre interessanti spunti di riflessione. Gli Stati che hanno un rating previsto più alto di quello assegnato (premiati dal modello) sono in numero maggiore rispetto a quelli con un rating più basso: ciò evidenzia una possibile cautela da parte delle agenzie di rating, che sembrano più propense ad abbassare i rating piuttosto che ad alzarli.

Un caso di applicazione del Machine Learning per i rating sovrani: i paesi PIIGS

Un caso interessante da analizzare riguarda il continente europeo e nello specifico i cosiddetti PIIGS, ovvero quel gruppo di paesi particolarmente colpiti dalla crisi dei debiti sovrani nel 2011. Tra questi il caso più emblematico è la Grecia: il rating assegnato è BB (11), mentre il rating medio stimato è pari a BBB- (13). E’ interessante osservare che gli output dei singolimodelli risultanofortemente contrastanti: la regressione lineare attribuisce un rating pari a 9, il SVR edil RFR attribuiscono, rispettivamente, un rating pari a 15 e 14. Il gap tra il valore medio delle previsioni ed il giudizio assegnato dalle agenzie è, in parte, spiegato dal downgrade applicato dal rating committee di Fitch: dal modello analitico risulta un rating pari a BB+ (12), con un downgrade di un notch a causa della debolezza del settore bancario. Altro caso significativo è il Portogallo: il rating assegnato è pari a BBB (14), mentre le previsioni dei tre modelli concordano su un rating pari ad A- (16). Tale differenza di 2 notch trova pieno riscontro, ancora una volta, nel ruolo del rating committee che, per motivi legati all’indebitamento del paese, applica un downgrade di 2 notch rispetto al risultato ottenuto dal modello analitico di Fitch. L’Italia presenta un rating stimato pari a 17 secondo la regressione lineare ed il SVR, pari a 15 secondo il random forestregression, per un valore del rating medio pari ad A-. In effetti, anche il modello quantitativo di Fitch calcola un rating pari ad A-; tuttavia il rating committee opera un downgrade di 4 notch considerando più volte aspetti legati al debito pubblico e al suo impatto sui conti italiani. 

I downgrade di 4 notch sul rating dell’Italia e di 5 notch sul rating del Costa Rica rappresentano un caso particolare. Dai Rating Criteria comunicati dall’agenzia Fitch, risulta che il numero di notch di correzione applicabili è pari ad un massimo di 3. I due casi sopracitati, in cui questo limite non viene rispettato, dimostrano quanto sia rilevante il ruolo dei rating commitee. 

Conclusioni

Dai risultati ottenuti, dunque, si può evincere che le metodologie utilizzate sono applicabili al campione: le tecniche di ML hanno performance similari tra loro, tanto per il train che per il test set. D’altra parte, la discrepanza che si rileva rispetto ai rating assegnati dalle agenzie, può denotare anche la capacità di cogliere eventuali bias nella formulazione del giudizio: i rating previsti dai modelli adottati sono vicini (o in alcuni casi uguali) a quelli ottenuti dai modelli analitici, precedentemente alla rettifica soggettiva. Inoltre, come riportato da diversi paper in letteratura, la tendenza generale è di applicare un aggiustamento al ribasso da parte dei rating committee. Questo è particolarmente vero per alcuni paesi come quelli della periferia dell’area Euro che hanno sperimentato crisi del debito sovrano nel recente passato; viceversa, la maggior parte dei paesi emergenti sembrano essere premiati per le loro prospettive di crescita future. La possibilità di implementare in-house modelli sofisticati, arricchendo eventualmente il dataset con variabili aggiuntive può costituire un utile strumento esplorativo/di challenge a fini di Risk Management: questo filone di ricerca appare particolarmente promettente per il futuro.

 

di Davide Bucci, Pasquale Falduti, Piergiorgio Marigliano, Daniele Marzocchi e Giovanni Pontonio

Author avatar
ipebs-editor