Sistema Online de Apoio a Congressos do UNIFOR-MG (SOAC/UNIFOR-MG), XI Mostra Integrada de Pesquisa e Extensão

Tamanho da fonte: 
COLETA, INTEGRAÇÃO E CARACTERIZAÇÃO DE BASE DE DADOS DE CÂNCER COM GEOLOCALIZAÇÃO
Arthur Arantes Faria, Cristina Maria Valadares de Lima

Última alteração: 2015-11-06

Resumo


INTRODUÇÃO: O mapeamento genético tornou-se um processo menos oneroso e rápido, o que contribuiu com o avanço nos estudos de doenças genéticas e também com a geração de uma grande quantidade de dados. Em relação às doenças neoplásicas, podem-se identificar padrões em genes que podem estar associados a um biomarcador cancerígeno. OBJETIVO: Tem-se como objetivo desse projeto construir uma base de conhecimento sobre o câncer, realizando a coleta dos dados de repositórios existentes e caracterizando as informações coletadas, permitindo assim a aplicação de técnicas computacionais, capazes de extrair informações para a realização de uma análise geográfica do estudo da doença. METODOLOGIA: A construção da base de dados foi implementada, utilizando a linguagem de programação Python com a biblioteca Entrez para conectar e coletar publicações da base de artigos PubMed, armazenando-os no banco de dados do MongoDB. Definiu-se um número máximo de 10.000 artigos para cada neoplasia, para possível identificação do país de afiliação do autor do artigo. RESULTADOS: Até o momento, pode ser observado, aproximadamente, 70% de sucesso de identificação de artigos dessa base, a partir do algoritmo implementado. Esses resultados foram exibidos em um ambiente web para possibilitar a identificação de qual é tipo de câncer mais estudado em cada local, entre outras informações. CONCLUSÃO: O algoritmo obteve próximo de 70% de sucesso minerando dados de uma base totalmente sem algum padrão. Por probabilidade dos resultados atuais, acredita-se que dos artigos restantes com possibilidade de definir a afiliação do autor, ao menos 30% dos artigos que não foram possíveis ser classificados, ainda é possível definir o país de autoria. O que possibilita uma melhora no resultado atual de 4.81%. Com isso, o algoritmo tende a tornar-se cada vez mais eficiente, sempre melhorando os resultados obtidos e reduzindo a perda dos artigos.

 

Palavras-chave: Mineração de dados. Neoplasias. PubMed.

 


Texto completo: PDF