Aluno: Luis Carvalho Morais Rosa
Resumo
Esta tese analisa de forma abrangente o desenvolvimento e a avaliação de modelos de previsão de risco de crédito no sistema financeiro angolano, caracterizado por uma qualidade de dados insatisfatória e por desafios significativos na aquisição e manutenção da consistência da informação. A análise examina a necessidade premente de metodologias robustas, fiáveis e compreensíveis de avaliação do risco de crédito, que promovam a inclusão financeira e uma gestão de risco eficaz em ambientes de mercados em desenvolvimento.
A investigação empírica recorre a um extenso conjunto de dados de hipotecas reais provenientes do setor bancário angolano. O conjunto de dados apresenta diversos problemas, incluindo valores em falta, históricos de crédito incompletos e uma disparidade significativa entre as classes nas taxas de incumprimento. Estes problemas ilustram as deficiências do sistema financeiro angolano no que diz respeito à sua infraestrutura e aos seus mecanismos de reporte. Para enfrentar essas limitações, foi estabelecido um rigoroso pipeline de pré-processamento de dados. O processo incluiu imputação pela mediana para dados ausentes, criação de variáveis indicadoras para características problemáticas e uma gestão eficiente de valores infinitos e irregulares. Para lidar com o desbalanceamento de classes e melhorar a capacidade de generalização do modelo em eventos de incumprimento raros, foram investigadas técnicas de reamostragem como SMOTE, SMOTETomek e ADASYN.
O sistema de modelação incluiu tanto a regressão logística convencional como métodos avançados de ensemble baseados em árvores, incluindo Categorical Boosting (CatBoost), Light Gradient Boosting Machine (LightGBM) e Extreme Gradient Boosting (XGBoost). Cada modelo foi analisado com e sem técnicas de reamostragem, permitindo uma avaliação rigorosa da interação entre a complexidade do modelo, a ampliação de dados e o desempenho preditivo no contexto de dados de baixa qualidade. A calibração dos modelos foi realizada com recurso à regressão isotónica, de forma a melhorar a precisão das avaliações de risco, essencial para decisões financeiras regulatórias fundamentadas.
Os resultados indicam que o CatBoost e o LightGBM apresentam capacidades de discriminação superiores (avaliadas através do ROC-AUC e PR-AUC) em comparação com os modelos lineares, mesmo na presença de dados imperfeitos. Contudo, a regressão logística manteve a sua relevância em contextos onde a interpretabilidade e a auditabilidade são fundamentais. A investigação indica que os algoritmos contemporâneos de gradient boosting podem lidar autonomamente com o desbalanceamento de dados, tornando a reamostragem sintética menos vantajosa em modelos de elevada capacidade.
Esta tese demonstra a importância da qualidade dos dados para a eficácia e a fiabilidade dos sistemas de credit scoring em Angola. Demonstra ainda que estruturas de aprendizagem automática, quando integradas com técnicas avançadas de pré-processamento e calibração, podem melhorar significativamente a precisão preditiva e a fiabilidade operacional. Os resultados sustentam a necessidade de um aperfeiçoamento contínuo da infraestrutura de dados em Angola e sugerem que o stacking de modelos baseados em ensembles pode reforçar a consistência e a robustez de futuras iniciativas de avaliação de risco.
Trabalho final de Mestrado