Un procedimiento informático permite no solamente rastrear los artículos más relevantes de cada área sino también la organización de las mismas, con sus comunidades y sus conexiones (imagen: visualización de la red de citas obtenida en una búsqueda de la expresión 'complex network' en la base de datos Web of Science/ Filipe N. Silva)

Un método computacional para mapear literatura científica
09-06-2016

Un procedimiento informático permite no solamente rastrear los artículos más relevantes de cada área sino también la organización de las mismas, con sus comunidades y sus conexiones

Un método computacional para mapear literatura científica

Un procedimiento informático permite no solamente rastrear los artículos más relevantes de cada área sino también la organización de las mismas, con sus comunidades y sus conexiones

09-06-2016

Un procedimiento informático permite no solamente rastrear los artículos más relevantes de cada área sino también la organización de las mismas, con sus comunidades y sus conexiones (imagen: visualización de la red de citas obtenida en una búsqueda de la expresión 'complex network' en la base de datos Web of Science/ Filipe N. Silva)

 

Por José Tadeu Arantes  |  Agência FAPESP – La búsqueda de información en internet mediante palabras claves constituye una actividad trivial, que ya se ha integrado al cotidiano de sus usuarios en todo el mundo. Pero la selección en medio de miles de referencias de aquéllas que realmente poseen relevancia científica es algo bastante más complicado.

Y más aún lo es saber de qué manera está organizada la información relevante, cómo se estructura el área de aquel campo de estudios en general, cuáles son sus subáreas, cuáles son las comunidades que actúan en ella o qué conexiones mantienen entre ellas las diferentes comunidades. Todo esto es fundamental para aquéllos que necesitan mapear la literatura especializada en cualquier dominio de la ciencia.

Y un grupo de investigadores ha desarrollado una metodología destinada a la realización de este tipo de mapeos por medios computacionales. Un artículo al respecto ha salido publicado en Journal of Informetrics.

“Este tipo de recursos computacionales se hacen cada vez más necesarios, no solamente debido al volumen de la literatura especializada, sino también a causa del aumento de la interdisciplinariedad en la ciencia”, declaró el autor principal del artículo, Filipi Nascimento Silva, a Agência FAPESP.

“Debido a la interdisciplinariedad, para crear algo nuevo, los investigadores de una determinada área pueden tener que conocer los artículos de otras áreas con las cuales no estén familiarizados. Un investigador en oncología, por ejemplo, puede necesitar saber más sobre el área de redes complejas. Con base en datos de revistas indexadas, lo cual comprende a los títulos de las publicaciones científicas, sus resúmenes y sus citas, creamos un método destinado a mapear las diferentes áreas”, dijo el investigador del Instituto de Física de São Carlos de la Universidad de São Paulo, en Brasil, donde desarrolla la investigación intitulada “Abordaje de redes complejas en e-Science y datos dinámicos”, con Beca de Posdoctorado de la FAPESP.

“Esta metodología permite visualizar el área y conocer las palabras claves más importantes de cada subárea y las conexiones entre dichas subáreas. Además hace posible el acceso a los artículos que realmente interesan”, dijo Nascimento Silva.

Si se tiene en cuenta que las publicaciones en revistas indexadas constituyen bases de datos de alta relevancia y que ya existen sistemas de búsqueda mediante palabras claves sumamente eficientes, el desafío que los autores del estudio se propusieron consistió en organizar todo el material que puede mapearse.

“Apuntamos a poner toda esa información en una estructura jerárquica en forma de árbol. Para ello, combinamos dos procedimientos distintos. El primero consistió en determinar cuáles eran los artículos más relevantes de cada conjunto de artículos. En tanto, el segundo consistió en etiquetar a las distintas comunidades que componen las diversas áreas”, explicó el coordinador del estudio, Osvaldo Novais de Oliveira Júnior, docente del Instituto de Física de São Carlos.

La determinación de los artículos más relevantes se realizó por medio de redes de citas. En ellas, cada artículo es tratado como un nodo de red. Y cada cita de un artículo por otro es considerada una conexión.

Artículos muy citados se convierten en nodos con muchas conexiones, y grupos de nodos muy conectados entre sí, pero que no están conectados con nodos de otros grupos, definen comunidades como subconjuntos más específicos del conjunto general. Todo esto se llevó a cabo con técnicas que usualmente se emplean en la ciencia de las redes.

Para etiquetar a las diferentes comunidades –el segundo procedimiento– se utilizó una tecnología de análisis de textos. A partir del título y del resumen de cada artículo, y descartándose palabras que tienen una alta frecuencia en cualquier tipo de textos (como las conjugaciones de los verbos ser y haber, artículos, preposiciones y sustantivos que aparecen con igual frecuencia en las más diversas áreas), se mapearon los ítems más importantes de cada artículo. Así fue como se establecieron las etiquetas.

“Al juntar ambos tipos de información tenemos un mapa de cada área, con sus diferentes comunidades y conexiones, sus artículos más importantes e influyentes y así sucesivamente”, dijo Novais de Oliveira Júnior, quien también es miembro de la Coordinación del Área de Física de la FAPESP.

Comunidades poco conectadas

Para poner a prueba el modelo, los investigadores eligieron dos áreas de las cuales había especialistas en el equipo, de manera tal que éstos pudiesen evaluar subjetivamente si el resultado obtenido tenía sentido. Se optó por las áreas de redes complejas y de cristales fotónicos.

“Al probar nuestra metodología en dichas áreas, descubrimos fortuitamente algunas cosas bastante interesantes. En el área de cristales fotónicos, por ejemplo, verificamos que había dos comunidades muy bien constituidas: una comunidad de ingenieros con orientación hacia las telecomunicaciones, y otra comunidad mayor de físicos y químicos, que desarrollan los conceptos y fabrican los materiales”, comentó Novais de Oliveira Júnior.

“Constatamos que esas comunidades se conectan muy poco entre sí. Esto significa que al conocimiento existente y disponible en un área pueden no estar utilizándolo los científicos de la propia área, debido al hecho de que una comunidad casi no sabe qué sucede en la otra. Fue un descubrimiento accidental, pero que puso en evidencia la importancia de que se disponga de un método computacional de mapeo de la literatura especializada”, dijo.

El profesor comenta que los scripts de los programas que emplean los investigadores ya se encuentran a disposición de quienes los soliciten; pero, para poder utilizarlos, los usuarios deben tener conocimiento de los lenguajes de computación.

El próximo paso consiste en transformar esos scripts en un software con una interfaz accesible para los no expertos en computación. “Por ahora a esos programas sólo pueden usarlos los especialistas. Pero, en el futuro, aspiramos a volverlos más accesibles y que queden a disposición de la comunidad. Esperamos que investigadores de cualquier área puedan realizar mapeos de la literatura valiéndose de nuestra metodología”, dijo Novais de Oliveira Júnior.

Puede verse una animación computacional que permite ver la red en el siguiente enlace: www.youtube.com/watch?v=5shcaMJ-gJI.

Y puede leerse el artículo intitulado Using network science and text analytics to produce surveys in a scientific topic (doi:10.1016/j.joi.2016.03.008), de Filipi Nascimento Silva, Osvaldo Novais de Oliveira Júnior y otros, en: www.sciencedirect.com/science/article/pii/S1751157715301966, y también aquí: http://arxiv.org/pdf/1506.05690v2.pdf.

 

  Republicar
 

Republicar

The Agency FAPESP licenses news via Creative Commons (CC-BY-NC-ND) so that they can be republished free of charge and in a simple way by other digital or printed vehicles. Agência FAPESP must be credited as the source of the content being republished and the name of the reporter (if any) must be attributed. Using the HMTL button below allows compliance with these rules, detailed in Digital Republishing Policy FAPESP.