Google

Aviso: Se está a ler esta mensagem, provavelmente, o browser que utiliza não é compatível com os "standards" recomendados pela W3C. Sugerimos vivamente que actualize o seu browser para ter uma melhor experiência de utilização deste "website". Mais informações em webstandards.org.

Warning: If you are reading this message, probably, your browser is not compliant with the standards recommended by the W3C. We suggest that you upgrade your browser to enjoy a better user experience of this website. More informations on webstandards.org.

Trabalho Final de Mestrado

Ano Lectivo: 2018/2019
Aluno: INÊS MARGARIDA SILVA PAZ LOPES (45039)
Mestrado: Gestão de Sistemas de Informação
Tipo: Projecto
Título do Trabalho Final de Mestrado: Qualidade dos Dados & Machine Learning: Uma nova abordagem aos Censos Populacionais e Habitacionais
Sub Título:
Comentário: -
Instituição: -
Homologação: Dia 30/01/2020 às 07:51 por NUNO JOÃO DE OLIVEIRA VALÉRIO

Resumo

O projeto realizado consiste no processo de recolha e preparação de dados manuscritos em papel, da aplicação do inquérito Censo Populacional e Habitacional a uma população de mais de vinte milhões de pessoas.
Este é um tipo de inquérito que se faz à população de um país, tendo como objetivo retirar conclusões a nível geográfico tanto da população, como das suas condições de vida. Os Censos são realizados com alguma frequência, o que permite efetuar comparações e perceber a transformação da sociedade e de um país, ao longo dos anos.
Com o objetivo de tornar os mais de vinte milhões de inquéritos manuscritos em informação útil e de qualidade acerca de um país e de uma população foi necessário dividir o trabalho em três fases, a fase recolha de dados e da sua conversão de imagem para um formato digital onde o texto possa ser editável, a fase de limpeza e tratamento dos dados e, por último, a fase de análise e classificação dos mesmos.
De acordo com cada fase, foram utilizadas diversas metodologias e tecnologias, como é o caso do OCR (Optical Character Recognition), NLP (Natural Language Processing) e Machine Learning, respetivamente. Estas abordagens permitiram uma melhor, mais rápida e mais fiável análise de resultados.
(Português)

The project undertaken consists on the process of collecting and preparing paper handwritten data obtained from the Population and Housing Census survey applied to a population of over twenty million people.
This type of inquiry done to the population of a country has the purpose of drawing up conclusions and insights on the populations? geographical characteristics, as well as their life conditions. These censuses are done on a frequent basis, which allows for continuous comparisons to be done and thus understand the changes occurring in a given society and country throughout time.
In order to turn more than twenty million handwritten surveys into useful and quality information about a country and a population, it was necessary to divide the work into three phases. The first stage consisted on the collection of data and its conversion into an image in a digital format, where text can be edited, followed by data cleansing and transformation, and finally, the third stage involved the analysis of the data and its respective classification.
In regards to the data analysis, for each sentence there were various methodologies and technologies applied, such as OCR (Optical Character Recognition), NLP (Natural Language Processing) e Machine Learning. This approach led to a better, quicker and more reliable analysis of the data.
(Inglês)

Palavras-chave

Processamento de Linguagem Natural, Censos, Distância de Levenshtein, Machine Learning, Modelo de Naïve Bayes, Qualidade dos Dados, Reconhecimento Ótico de Caracteres (Português)

Census, Data Quality, Levenshtein Distance, Machine Learning, Natural Language Processing, Optical Character Recognition, Naïve Bayes Model (Inglês)

Resumo Alargado

Resumo.pdf (13KB)

Data da Prova Pública

Data da Prova Pública: 29-01-2020 11:00
Voltar