Aluno: Sara Isabel Rita Gutierrez
Resumo
Esta dissertação investiga o desenvolvimento de um modelo preditivo de ordenação com o
objetivo de aumentar a eficiência da equipa de Inside Sales de uma instituição financeira,
através da previsão da subscrição de seguros de proteção ao crédito. Recorrendo a registos
de crédito ao consumo de 2024, o estudo passa por uma preparação de dados abrangente,
análise exploratória e feature engineering para tratar um conjunto de dados de elevada
dimensionalidade e com uma representação desigual entre classes. Foram implementados
e comparados vários modelos preditivos, nomeadamente Regressão Logística, Random
Forest, LightGBM e CatBoost, com afinação de hiperparâmetros orientada por validação
cruzada e avaliação baseada em múltiplas métricas e análise por decis.
Os resultados revelam que, embora a Regressão Logística seja valorizada pela sua
interpretabilidade, o seu desempenho preditivo é inferior ao de métodos mais avançados
baseados em ensemble e boosting. O modelo Random Forest demonstra forte capacidade
discriminativa global, evidenciada pelos seus valores superiores de AUC e coeficiente de
Gini no conjunto de teste, mas apresenta sinais de sobreajuste na análise por decis. O
LightGBM revela um desempenho competitivo, destacando-se especialmente pelo valor
do F1 score na classe positiva. Contudo, é o CatBoost que se destaca como o modelo mais
equilibrado, com desempenho consistente nas métricas validadas por validação cruzada,
nas avaliações no conjunto de teste e na análise por decis. Adicionalmente, os valores
SHAP oferecem uma análise pormenorizada da importância das variáveis, identificando
vários atributos-chave como determinantes na previsão da subscrição.
Este estudo representa um contributo relevante para a literatura emergente sobre a
subscrição de seguros de proteção ao crédito, um tema ainda pouco explorado tanto em
contextos académicos como empresariais. O modelo de ordenação desenvolvido constitui
um avanço significativo face à abordagem tradicional baseada em Regressão Logística,
oferecendo ganhos em precisão preditiva e interpretabilidade, permitindo decisões mais
informadas e maior eficiência operacional. Investigações futuras deverão incidir sobre
o aperfeiçoamento dos parâmetros do modelo, a exploração de técnicas nativas de trata-
mento de variáveis categóricas e a implementação de estratégias de agregação de modelos
para otimizar o desempenho e a transparência na previsão da subscrição. Adicionalmente,
recomenda-se a inclusão de uma dimensão económica relacionada com o potencial de
comissão dos clientes, com vista a aumentar a relevância prática do modelo.
Trabalho final de Mestrado