Defesa de tese de doutorado na UFMG tratará sobre categorizarão de documentos através de suas citações utilizando um método baseado em redes neurais artificiais

O Colegiado do Programa de Pós-Graduação em Ciência da Informação da Escola de Ciência da Informação da Universidade Federal de Minas Gerais tem o prazer de convidá-lo(a) a assistir a Defesa de Tese de Doutorado, intitulada: “CATEGORIZAÇÃO DE DOCUMENTOS A PARTIR DE SUAS CITAÇÕES: UM MÉTODO BASEADO EM REDES NEURAIS ARTIFICIAIS”

Aluna: Magali Rezende Gouvêa Meireles
Data: 08 de novembro de 2012, às 14:00 horas
Local: sala 1000- ECI/UFMG.

Resumo:
A organização automática de grandes coleções torna se atividade mais relevante à medida que aumenta o número de publicações disponíveis em meio digital. Esse trabalho pretende contribuir para essa área avaliando o uso de Redes Neurais Artificiais (RNA) para categorizar documentos automaticamente por meio da análise das referências bibliográficas neles citadas. O método desenvolvido gera grupos de documentos aplicando conceitos da bibliometria. As publicações foram categorizadas utilizando as citações como atributo principal, baseando-se na premissa de que as citações são uma importante fonte de informação sobre o relacionamento existente entre os documentos. As Redes Neurais Artificiais são utilizadas, tipicamente, em problemas de aproximação, predição, classificação, categorização e otimização. Muitos dos experimentos relatados na literatura descrevem a utilização de redes Self Organizing Maps (SOM) para organização de documentos em um formato alternativo para a recuperação de informação. As redes SOM foram utilizadas, neste trabalho, com o objetivo de categorizar os documentos apresentados. As relações entre os textos foram definidas não pela identificação de termos em comum, mas, pela presença de referências bibliográficas comuns e respectivos anos de publicação. Após a validação do método, utilizando um protótipo, foi criado um banco de dados com 200 artigos, do periódico IEEE Transactions on Neural Network, publicados entre 2001 e 2010. As publicações foram categorizadas pela RNA e apresentadas em grupos organizados por suas citações em comum. Os resultados obtidos em três experimentos mostraram que a RNA identificou satisfatoriamente clusters de autores e textos a partir de suas referências. A análise dos textos das publicações pertencentes aos clusters, formados a partir da categorização automática dos documentos, evidenciou a forte relação semântica existente entre eles. Os clusters podem ser úteis na identificação de grupos de pesquisadores que trabalham em áreas afins, na identificação de tendências de pesquisa de um domínio específico de conhecimento e na formulação ou na reformulação de uma consulta no processo de recuperação de informação.