Aluno: Ana Margarida Rodrigues De Jesus
Resumo
O presente estudo teve como objetivo principal avaliar diferentes metodologias para a previsão das vendas de um seguro de saúde, comparando modelos clássicos de séries temporais, como o Holt-Winters e o ARIMA, com abordagens baseadas em aprendizagem automática (Machine Learning), como o XGBoost e o Random Forest. Para enriquecer a capacidade explicativa dos modelos, foram incorporadas variáveis exógenas económicas e relacionadas com o setor da saúde.
O tratamento de observações anómalas (outliers) constituiu uma etapa metodológica central. Os valores atípicos foram identificados e corrigidos com base em critérios estatísticos, sendo avaliado o impacto dessa correção no desempenho preditivo dos modelos, comparando os valores das séries original e prevista. Nos modelos de Machine Learning, como o XGBoost, criaram-se desfasamentos da série temporal em estudo de modo a incorporar a dependência temporal nos algoritmos não sequenciais. A validação considerou a separação temporal entre as amostras de treino e teste, complementada por validação cruzada temporal sempre que aplicável.
Os resultados demonstraram que o modelo com melhor desempenho foi o modelo ARIMAX, com as variáveis exógenas “IPC total - taxa de variação homóloga” e “No de pessoas desempregadas”, aplicado à série com outliers corrigidos. Este modelo beneficiou da integração de fatores macroeconómicos e do tratamento prévio de valores atípicos para melhorar a capacidade preditiva.
Os modelos de Machine Learning, como o Random Forest e o XGBoost, apresentaram desempenho competitivo, mas inferior ao ARIMAX, especialmente quando não houve correção de outliers. O modelo Holt-Winters teve o desempenho mais fraco, refletindo limitações em séries com dinâmicas mais complexas.
Estes resultados reforçam a importância do tratamento adequado dos dados e da combinação de diferentes técnicas para obter previsões mais robustas e confiáveis.
Trabalho final de Mestrado