Search button

Predicting credit insurance subscription: A comparative analysis of machine learning models for client ranking

Aluno: Sara Isabel Rita Gutierrez


Resumo
Esta dissertação investiga o desenvolvimento de um modelo preditivo de ordenação com o objetivo de aumentar a eficiência da equipa de Inside Sales de uma instituição financeira, através da previsão da subscrição de seguros de proteção ao crédito. Recorrendo a registos de crédito ao consumo de 2024, o estudo passa por uma preparação de dados abrangente, análise exploratória e feature engineering para tratar um conjunto de dados de elevada dimensionalidade e com uma representação desigual entre classes. Foram implementados e comparados vários modelos preditivos, nomeadamente Regressão Logística, Random Forest, LightGBM e CatBoost, com afinação de hiperparâmetros orientada por validação cruzada e avaliação baseada em múltiplas métricas e análise por decis. Os resultados revelam que, embora a Regressão Logística seja valorizada pela sua interpretabilidade, o seu desempenho preditivo é inferior ao de métodos mais avançados baseados em ensemble e boosting. O modelo Random Forest demonstra forte capacidade discriminativa global, evidenciada pelos seus valores superiores de AUC e coeficiente de Gini no conjunto de teste, mas apresenta sinais de sobreajuste na análise por decis. O LightGBM revela um desempenho competitivo, destacando-se especialmente pelo valor do F1 score na classe positiva. Contudo, é o CatBoost que se destaca como o modelo mais equilibrado, com desempenho consistente nas métricas validadas por validação cruzada, nas avaliações no conjunto de teste e na análise por decis. Adicionalmente, os valores SHAP oferecem uma análise pormenorizada da importância das variáveis, identificando vários atributos-chave como determinantes na previsão da subscrição. Este estudo representa um contributo relevante para a literatura emergente sobre a subscrição de seguros de proteção ao crédito, um tema ainda pouco explorado tanto em contextos académicos como empresariais. O modelo de ordenação desenvolvido constitui um avanço significativo face à abordagem tradicional baseada em Regressão Logística, oferecendo ganhos em precisão preditiva e interpretabilidade, permitindo decisões mais informadas e maior eficiência operacional. Investigações futuras deverão incidir sobre o aperfeiçoamento dos parâmetros do modelo, a exploração de técnicas nativas de trata- mento de variáveis categóricas e a implementação de estratégias de agregação de modelos para otimizar o desempenho e a transparência na previsão da subscrição. Adicionalmente, recomenda-se a inclusão de uma dimensão económica relacionada com o potencial de comissão dos clientes, com vista a aumentar a relevância prática do modelo.


Trabalho final de Mestrado