Curvas de evolución de la pandemia por países: pronósticos para siete días, basados en datos consolidados del día 17/05/2020. Fuente: Websensors (imagen: Websensors)
Una herramienta digital desarrollada en el Instituto de Ciencias Matemáticas y de Computación (ICMC) de la USP, en São Carlos, Brasil, permite mejorar los pronósticos referentes a la evolución de la pandemia
Una herramienta digital desarrollada en el Instituto de Ciencias Matemáticas y de Computación (ICMC) de la USP, en São Carlos, Brasil, permite mejorar los pronósticos referentes a la evolución de la pandemia
Curvas de evolución de la pandemia por países: pronósticos para siete días, basados en datos consolidados del día 17/05/2020. Fuente: Websensors (imagen: Websensors)
Por José Tadeu Arantes | Agência FAPESP – Una herramienta desarrollada para la minería de datos y textos y denominada Websensors se está aplicando en el análisis de la evolución de la pandemia de COVID-19. Dicho instrumento, que posee la capacidad de extraer datos de textos de noticias para recabar información sobre “qué sucedió”, “cuándo sucedió” y “dónde sucedió”, permite ajustar diariamente los modelos de propagación de la enfermedad.
El desarrollo de esta herramienta tuvo lugar en el Instituto de Ciencias Matemáticas y de Computación de la Universidad de São Paulo (ICMC-USP), con sede en la ciudad São Carlos, en Brasil, y estuvo a cargo de los investigadores Solange Rezende, Ricardo Marcacini y Rafael Rossi; y contó también con la participación de Roberta Sinoara. Recibió apoyo de la FAPESP en el marco del proyecto intitulado “Aprendizaje de máquinas para WebSensors: algoritmos y aplicaciones”, y mediante becas concedidas a Marcacini, Rossi y Sinoara, todos bajo la supervisión de Rezende.
La instancia de la herramienta Websensors dedicada a la epidemia de COVID-19 se encuentra disponible en este enlace: websensors.net.br/projects/covid19, y el desarrollo de su interfaz web estuvo a cargo de Luan Martins, estudiante de maestría en el ICMC-USP.
“Aplicamos la minería de datos a textos de noticias como una forma de detectar eventos que están ocurriendo en cada país a los efectos de ajustar la proyección con las características de Brasil”, declara Rezende a Agência FAPESP.
Según la investigadora, el principal punto de investigación en el estudio de Websensors reside en la posibilidad de extraer información complementaria referente a un problema con base en noticias y ajustar a partir de las mismas los modelos predictivos ya existentes.
“Esta herramienta se vale de una metodología de minería de eventos estructurada en cinco etapas: detección del problema, preprocesamiento, extracción de patrones, posprocesamiento y utilización del conocimiento”, comenta Ricardo Marcacini.
La primera etapa, de detección del problema, consiste en definir el tema de la aplicación y las fuentes de los datos. “Los datos diarios de propagación internacional del COVID-19 se recolectan en el Data Repository by Johns Hopkins CSSE. y las noticias, publicadas en más de 100 idiomas, se recaban por medio del GDELT Project. Esta gran plataforma, altamente selectiva, nos protege contra fake news”, dice Rezende.
En la segunda etapa, de preprocesamiento, se utilizan algoritmos que transforman las noticias en eventos. “Pretendemos contar únicamente con noticias con las cuales podamos detectar qué sucedió, cuándo sucedió y dónde sucedió (georreferenciación). Si al menos esas tres informaciones pueden extraerse de la noticia, entonces tenemos un evento que un programa de computador puede analizar”, explica Marcacini.
En la tercera etapa, de extracción de patrones, se emplea una red neural que recibe como entrada las curvas de contagio de algunos países. Y las enriquece añadiéndoles los eventos preprocesados durante la etapa anterior. “Como salida, configuramos la red neural para que retorne a la curva de contagios considerando las características de Brasil”, informa Marcacini.
En el posprocesamiento, que constituye la cuarta etapa, los responsables de la herramienta efectúan una evaluación del modelo utilizado. “Pueden aplicarse distintas técnicas de evaluación”, dice Rezende. “Una de ellas consiste en emplear el modelo para prever algunos de los datos que ya conocemos, a los efectos de cuantificar el margen de aciertos.”
La quinta y última etapa, para concluir, se refiere al uso del conocimiento. Esto significa ponerlo a disposición para que los usuarios o incluso otros sistemas puedan explorarlo. En este caso, se puede tener acceso libre a todo el conocimiento obtenido acerca de la pandemia en la siguiente dirección: websensors.net.br/projects/covid19.
Rezende afirma que la plataforma Websensors ha venido publicando diariamente los pronósticos de los próximos siete días de la curva de contagios de Brasil aplicando el modelo ajustado con los eventos. Las informaciones se encuentran disponibles para cualquier interesado. Pero el investigador advierte sobre el hecho de que la herramienta está siendo sometida a ajustes aún. “Es importante remarcar que Websensors no fue construida con este fin. Así y todo, creemos que, durante este período difícil, podemos utilizar lo que tenemos a disposición para colaborar", afirma.
The Agency FAPESP licenses news via Creative Commons (CC-BY-NC-ND) so that they can be republished free of charge and in a simple way by other digital or printed vehicles. Agência FAPESP must be credited as the source of the content being republished and the name of the reporter (if any) must be attributed. Using the HMTL button below allows compliance with these rules, detailed in Digital Republishing Policy FAPESP.