La representación de las relaciones entre términos en redes permite aprender patrones que no se asimilan en otros tipos de representaciones (imágenes: FAPESP)

Algoritmos facilitan la clasificación automatizada de textos en internet
03-09-2015

Premian en un evento internacional una investigación realizada en el Instituto de Ciencias Matemáticas y Computación de la Universidad de São Paulo, en Brasil

Algoritmos facilitan la clasificación automatizada de textos en internet

Premian en un evento internacional una investigación realizada en el Instituto de Ciencias Matemáticas y Computación de la Universidad de São Paulo, en Brasil

03-09-2015

La representación de las relaciones entre términos en redes permite aprender patrones que no se asimilan en otros tipos de representaciones (imágenes: FAPESP)

 

Por Diego Freire

Agência FAPESP - Un conjunto de algoritmos desarrollados en el Instituto de Ciencias Matemáticas y Computación (ICMC) de la Universidad de São Paulo (USP), en São Carlos, Brasil, permite filtrar –entre grandes cantidades de textos– datos para su clasificación de acuerdo con el tenor de su contenido.

De este modo, comentarios publicados en las redes sociales pueden identificarse fácilmente como positivos o negativos, y pueden categorizarse colecciones de bibliotecas virtuales según su género literario, por temas y de acuerdo con otros aspectos específicos de cada obra.

El desarrollo de estos algoritmos estuvo a cargo de Rafael Geraldeli Rossi, responsable de la investigación doctoral intitulada “Extracción de patrones de colecciones de documentos textuales mediante la utilización de redes heterogéneas”, realizada con el apoyo de la FAPESP. Este trabajo fue galardonado durante la 16th International Conference on Intelligent Text Procesing and Computational Linguistics, realizada en abril pasado en Egipto.

“La cantidad de información a disposición en diferentes plataformas de fácil acceso como la web es cada vez mayor. Urge desarrollar nuevas estrategias para filtrarlas de manera inteligente, sin que se pierdan datos durante el proceso y asegurándose una mayor precisión en su interpretación”, dijo Rossi.

Los algoritmos que Rossi desarrolló permiten esa clasificación, considerando no sólo la incidencia de términos específicos en distintos textos, sino también redes formadas por asociaciones entre términos, lo que agiliza el proceso y disminuye la cantidad de información que es necesario suministrarle a la máquina para “entrenarla”.

Este trabajo se lleva adelante mediante el aprendizaje de máquinas, un campo de la inteligencia artificial dedicado al desarrollo de algoritmos y técnicas que le permiten a la computadora perfeccionar su desempeño en alguna tarea, al “aprender” con base en ejemplos clasificados previamente por un usuario o un experto.

De acuerdo con Solange Oliveira Rezende, investigadora del ICMC y directora de la investigación, la representación de datos en redes permite mejorar la organización y la clasificación de datos considerando unos pocos ejemplos clasificados anteriormente.

“La representación de las relaciones entre términos en redes permite aprender patrones que no se asimilan en otros tipos de representaciones. Con base en ello se desarrollaron los algoritmos que manipulan esas representaciones en redes de términos, lo cual permite efectuar análisis sobre los diferentes tipos de relaciones que pueden existir entre los términos y adecuar el aprendizaje de máquinas a las necesidades del usuario”, explicó.

Para Rezende, los algoritmos que desarrolló Rossi simplifican el proceso de clasificación sin perjudicar su precisión, y minimizan la complejidad computacional.

“La gran diferencia de este trabajo radica en que no se contempla en él únicamente la frecuencia de los términos en los documentos, que es lo más común en este tipo de investigaciones. Se tiene en cuenta también la relación entre términos para realizar la clasificación de los textos.”

El trabajo se desarrolló en el marco de la investigación intitulada Aprendizaje de máquinas para WebSensors: algoritmos y aplicaciones, llevada a cabo por Rezende en el ICMC también con el apoyo de la FAPESP.

El objetivo, según explicó la investigadora, consiste en estudiar métodos de aprendizaje de máquinas que sirvan de apoyo para la construcción automática de sensores en la web.

“El desarrollo de un websensor depende de expertos para la definición de los parámetros del sensor, tales como expresiones de búsqueda, filtros y monitoreos de contenido textual en la web, cosas que tornan más complejo al proceso. Los algoritmos de aprendizaje de máquinas semisupervisados para la clasificación de textos, tales como los que se desarrollaron en la investigación, pueden utilizarse para generar sensores y monitorear ejemplos de interés del usuario”, dijo Rezende.

Según la investigadora, este estudio apunta a contribuir también con la explotación del potencial de la web como “un grande y poderoso sensor social que permite monitorear diversos tipos de eventos con base en textos publicados en portales de noticias y redes sociales, tales como detección de epidemias, extracción de indicadores políticos y económicos y análisis de sentimientos”.

Puede accederse a los resultados de la investigación de Rossi, que cuenta también con la colaboración de Alneu de Andrade Lopes, docente del ICMC, en la siguiente dirección: www.researchgate.net/profile/Rafael_Rossi2.

 

  Republicar
 

Republicar

The Agency FAPESP licenses news via Creative Commons (CC-BY-NC-ND) so that they can be republished free of charge and in a simple way by other digital or printed vehicles. Agência FAPESP must be credited as the source of the content being republished and the name of the reporter (if any) must be attributed. Using the HMTL button below allows compliance with these rules, detailed in Digital Republishing Policy FAPESP.