Una herramienta computacional permite integrar y analizar distintas bases de datos sobre salud

Republicar

The Agency FAPESP licenses news via Creative Commons (CC-BY-NC-ND) so that they can be republished free of charge and in a simple way by other digital or printed vehicles. Agência FAPESP must be credited as the source of the content being republished and the name of the reporter (if any) must be attributed. Using the HMTL button below allows compliance with these rules, detailed in Digital Republishing Policy FAPESP.

Agência FAPESP* –Por Luciana Constantino  |  Agência FAPESP – Científicos brasileños crearon una herramienta computacional innovadora y ágil capaz de vincular y analizar distintas bases de datos de salud con millones de registros. Esta plataforma, llamada Tucuxi-BLAST, codifica los distintos registros existentes en un banco –el nombre del individuo, el nombre de su madre y su ciudad de nacimiento, por ejemplo– mediante el empleo de letras representativas de los nucleótidos de una secuencia de ADN (A, T, C o G). Y al “transformar” a la persona en un ADN, permite que se interconecte la información presente en distintos bancos aun cuando contenga errores o inconsistencias.

Estos resultados pueden aplicarse en investigaciones y análisis epidemiológicos, y en la formulación de políticas públicas.

Con este método, es posible efectuar un cruzamiento de la base de personas vacunadas en el SUS (el Sistema Único de Salud, la red nacional y pública de salud de Brasil) con datos de otros bancos para hallar a los pacientes vacunados que contrajeron una determinada enfermedad, por ejemplo. Aun cuando esos registros contengan errores de tipeado, letras fuera de lugar o carezcan de algún dato (un espacio inexistente o no completado), Tucuxi-BLAST puede identificar que se trata de los mismos individuos provenientes bases de datos distintas.

Es decir, el sistema entiende las diferencias de registro de un mismo individuo como si fueran “mutaciones” en el ADN. Sucede que las herramientas genómicas son capaces de mostrar los fragmentos más similares a otros y efectuar, de este modo, la conexión de las bases. Con la secuencia de letras para cada individuo, es posible cruzar y unir datos de distintos repositorios.

“El SUS puede constituir una fuente preciosa de información para la concreción de estudios médicos y epidemiológicos, ya que almacena datos de salud de millones de individuos. Con todo, cada enfermedad o cada tipo de dato queda almacenado en bases distintas, que no siempre conversan entre sí. Con el método que desarrollamos, que es eficaz y rápido, es posible efectuar el enlace entre ellas”, afirma Helder Nakaya, autor corresponsal de artículo publicado en la revista científica PeerJ, en entrevista concedida a Agência FAPESP. Nakaya es un inmunólogo vinculado a la Facultad de Ciencias Farmacéuticas de la Universidad de São Paulo (FCF-USP).

Aparte de desarrollar investigaciones en el Hospital Israelita Albert Einstein, en la Plataforma Científica Pasteur-USP (SPPU) y en el Instituto Todos pela Saúde, Nakaya forma parte del Centro de Investigaciones en Enfermedades Inflamatorias (CRID), un Centro de Investigación, Innovación y Difusión (CEPID) de la FAPESP. Este trabajo también contó con el apoyo de la Fundación en el marco de otros dos proyectos (18/14933-2 y 19/27139-5).

La puesta en práctica

Antes incluso de que el artículo se publicase, la herramienta empezó a utilizarse en la práctica. Tucuxi-BLAST fue el instrumento de otra investigación que combinó un conjunto de datos del Sistema de Vigilancia de la Malaria (Sivep malaria) del Ministerio de Salud de Brasil con información clínica del sistema homólogo de la Fundación de Medicina Tropical Dr. Heitor Vieira Dourado – filial Manaos (en la Amazonia brasileña) de la Fundación Oswaldo Cruz (Fiocruz), brazo de investigación del Ministerio de Salud. Este cruzamiento abarca un período de cuatros años.

El resultado de este trabajo mostró que el hecho de ser VIH positivo se erige como un riesgo en casos de infección por malaria causada por Plasmodium vivax, lo que constituye un desafío extra en la formulación de políticas públicas orientadas a atender pacientes con la enfermedad transmitida por el mosquito Anopheles.

Con la ausencia de un identificador único, Tucuxi-BLAST utilizó los nombres del paciente y de la madre y la fecha de nacimiento. Las conclusiones se publicaron en mayo en la revista Scientific Reports. 

Coordinado por investigadores de la Universidad del Estado de Amazonas (UEA), este estudio contó con la participación de Nakaya y del científico de datos José Deney Alves Araújo, de la FCF-USP, primer autor del artículo publicado en PeerJ. Alves Araújo fue quien le dio su nombre al sistema, bautizado Tucuxi en honor a una especie de cetáceo de agua dulce homónima, de la familia de los delfines, existente en la cuenca del Amazonas.

En tanto, BLAST proviene del nombre de la herramienta básica de búsqueda de alineamiento local, muy utilizada en bioinformática para comparar grandes bancos de datos con secuencias biológicas.

Cómo funciona

Para desarrollar el nuevo método, los científicos tradujeron los datos de individuos en secuencias de ADN empleando una rueda de codones, una serie de bases nitrogenadas de ARN mensajero responsables de la codificación de un determinado aminoácido o que indican el punto de comienzo o fin de la cadena de ARNm. Esas ruedas cambian en distintas ejecuciones sin perjudicar la eficiencia del proceso.

El esquema de codificación permite la criptografía de datos en tiempo real, lo que asegura la privacidad durante la vinculación. “Trabajando con ADN es posible encriptar los datos, con una seguridad mayor al respecto de la privacidad de la información”, explica Nakaya.

La comparación de los campos de identificación codificados por ADN se efectúa utilizando el BLAST y algoritmos de aprendizaje de la computadora, que automáticamente clasifican los resultados finales.

Similar a la genómica comparativa, en la cual se comparan genes de distintos genomas para determinar secuencias comunes y únicas, Tucuxi-BLAST hace posible la integración simultánea de múltiplos bancos administrativos, sin necesidad de datos complejos procesados previamente.

Durante el estudio, el grupo testeó y comparó información de un banco simulado con registros de 300 millones de individuos, aparte de cuatro grandes bases de datos administrativos con información real de pacientes brasileños.

La conclusión indicó que el método logró superar errores ortográficos y tipográficos en un lapso de tiempo cinco veces más rápido: mientras que el procesamiento en enlaces de registros (RL, las siglas en inglés para record linkage) del mayor conjunto de datos (200 mil registros) tardó 127 horas (cinco días y siete horas), Tucuxi-BLAST lo hizo en 23 horas (menos de un día).

Los investigadores crearon un sitio web donde es posible “traducir” palabras, frases y nombre en ADN.

Nakaya recuerda que algunos países, tales como Inglaterra, Canadá y Australia, invirtieron en iniciativas exitosas de análisis de datos, construyendo centros para la integración y el desarrollo de nuevas estrategias de análisis.

En Brasil, un ejemplo de ello es el Centro de Integración de Datos y Conocimientos en Salud (Cidacs/Fiocruz), que dispone de un banco con información de 114 millones de brasileños, obtenida mediante la integración de bases administrativas y de salud.

Puede leerse el artículo intitulado Tucuxi-BLAST: Enabling fast and accurate record linkage of large-scale health-related administrative databases through a DNA-encoded approach en el siguiente enlace: peerj.com/articles/13507/.

<p><strong>Por Luciana Constantino  |  Agência FAPESP</strong> – Científicos brasileños crearon una herramienta computacional innovadora y ágil capaz de vincular y analizar distintas bases de datos de salud con millones de registros. Esta plataforma, llamada Tucuxi-BLAST, codifica los distintos registros existentes en un banco –el nombre del individuo, el nombre de su madre y su ciudad de nacimiento, por ejemplo– mediante el empleo de letras representativas de los nucleótidos de una secuencia de ADN (A, T, C o G). Y al “transformar” a la persona en un ADN, permite que se interconecte la información presente en distintos bancos aun cuando contenga errores o inconsistencias.</p>

<p>Estos resultados pueden aplicarse en investigaciones y análisis epidemiológicos, y en la formulación de políticas públicas.</p>

<p>Con este método, es posible efectuar un cruzamiento de la base de personas vacunadas en el SUS (el Sistema Único de Salud, la red nacional y pública de salud de Brasil) con datos de otros bancos para hallar a los pacientes vacunados que contrajeron una determinada enfermedad, por ejemplo. Aun cuando esos registros contengan errores de tipeado, letras fuera de lugar o carezcan de algún dato (un espacio inexistente o no completado), Tucuxi-BLAST puede identificar que se trata de los mismos individuos provenientes bases de datos distintas.</p>

<p>Es decir, el sistema entiende las diferencias de registro de un mismo individuo como si fueran “mutaciones” en el ADN. Sucede que las herramientas genómicas son capaces de mostrar los fragmentos más similares a otros y efectuar, de este modo, la conexión de las bases. Con la secuencia de letras para cada individuo, es posible cruzar y unir datos de distintos repositorios.</p>

<p>“El SUS puede constituir una fuente preciosa de información para la concreción de estudios médicos y epidemiológicos, ya que almacena datos de salud de millones de individuos. Con todo, cada enfermedad o cada tipo de dato queda almacenado en bases distintas, que no siempre conversan entre sí. Con el método que desarrollamos, que es eficaz y rápido, es posible efectuar el enlace entre ellas”, afirma <a href="https://bv.fapesp.br/pt/pesquisador/24543/helder-takashi-imoto-nakaya" target="_blank"><strong>Helder Nakaya</strong></a>, autor corresponsal de artículo <a href="https://peerj.com/articles/13507/" target="_blank"><strong>publicado</strong></a> en la revista científica <em>PeerJ</em>, en entrevista concedida a <strong>Agência FAPESP</strong>. Nakaya es un inmunólogo vinculado a la Facultad de Ciencias Farmacéuticas de la Universidad de São Paulo (FCF-USP).</p>

<p>Aparte de desarrollar investigaciones en el Hospital Israelita Albert Einstein, en la Plataforma Científica Pasteur-USP (SPPU) y en el Instituto Todos pela Saúde, Nakaya forma parte del <a href="https://bv.fapesp.br/pt/auxilios/58581" target="_blank"><strong>Centro de Investigaciones en Enfermedades Inflamatorias</strong></a> (<a href="https://crid.fmrp.usp.br/crid/" target="_blank"><strong>CRID</strong></a>), un Centro de Investigación, Innovación y Difusión (<a href="https://cepid.fapesp.br" target="_blank"><strong>CEPID</strong></a>) de la FAPESP. Este trabajo también contó con el apoyo de la Fundación en el marco de otros dos proyectos (<a href="https://bv.fapesp.br/pt/auxilios/103811" target="_blank"><strong>18/14933-2</strong></a> y <a href="https://bv.fapesp.br/en/bolsas/191343" target="_blank"><strong>19/27139-5</strong></a>).</p>

<p><strong>La puesta en práctica</strong></p>

<p>Antes incluso de que el artículo se publicase, la herramienta empezó a utilizarse en la práctica. Tucuxi-BLAST fue el instrumento de otra investigación que combinó un conjunto de datos del Sistema de Vigilancia de la Malaria (Sivep malaria) del Ministerio de Salud de Brasil con información clínica del sistema homólogo de la Fundación de Medicina Tropical Dr. Heitor Vieira Dourado – filial Manaos (en la Amazonia brasileña) de la Fundación Oswaldo Cruz (Fiocruz), brazo de investigación del Ministerio de Salud. Este cruzamiento abarca un período de cuatros años.</p>

<p>El resultado de este trabajo mostró que el hecho de ser VIH positivo se erige como un riesgo en casos de infección por malaria causada por <em>Plasmodium vivax</em>, lo que constituye un desafío extra en la formulación de políticas públicas orientadas a atender pacientes con la enfermedad transmitida por el mosquito <em>Anopheles</em>.</p>

<p>Con la ausencia de un identificador único, Tucuxi-BLAST utilizó los nombres del paciente y de la madre y la fecha de nacimiento. Las conclusiones se publicaron en mayo en la revista <a href="https://www.nature.com/articles/s41598-022-13256-4" target="_blank"><em><strong>Scientific Reports</strong></em></a>. </p>

<p>Coordinado por investigadores de la Universidad del Estado de Amazonas (UEA), este estudio contó con la participación de Nakaya y del científico de datos José Deney Alves Araújo, de la FCF-USP, primer autor del artículo publicado en <em>PeerJ</em>. Alves Araújo fue quien le dio su nombre al sistema, bautizado Tucuxi en honor a una especie de cetáceo de agua dulce homónima, de la familia de los delfines, existente en la cuenca del Amazonas.</p>

<p>En tanto, BLAST proviene del nombre de la herramienta básica de búsqueda de alineamiento local, muy utilizada en bioinformática para comparar grandes bancos de datos con secuencias biológicas.</p>

<p><strong>Cómo funciona</strong></p>

<p>Para desarrollar el nuevo método, los científicos tradujeron los datos de individuos en secuencias de ADN empleando una rueda de codones, una serie de bases nitrogenadas de ARN mensajero responsables de la codificación de un determinado aminoácido o que indican el punto de comienzo o fin de la cadena de ARNm. Esas ruedas cambian en distintas ejecuciones sin perjudicar la eficiencia del proceso.</p>

<p>El esquema de codificación permite la criptografía de datos en tiempo real, lo que asegura la privacidad durante la vinculación. “Trabajando con ADN es posible encriptar los datos, con una seguridad mayor al respecto de la privacidad de la información”, explica Nakaya.</p>

<p>La comparación de los campos de identificación codificados por ADN se efectúa utilizando el BLAST y algoritmos de aprendizaje de la computadora, que automáticamente clasifican los resultados finales.</p>

<p>Similar a la genómica comparativa, en la cual se comparan genes de distintos genomas para determinar secuencias comunes y únicas, Tucuxi-BLAST hace posible la integración simultánea de múltiplos bancos administrativos, sin necesidad de datos complejos procesados previamente.</p>

<p>Durante el estudio, el grupo testeó y comparó información de un banco simulado con registros de 300 millones de individuos, aparte de cuatro grandes bases de datos administrativos con información real de pacientes brasileños.</p>

<p>La conclusión indicó que el método logró superar errores ortográficos y tipográficos en un lapso de tiempo cinco veces más rápido: mientras que el procesamiento en enlaces de registros (RL, las siglas en inglés para <em>record linkage</em>) del mayor conjunto de datos (200 mil registros) tardó 127 horas (cinco días y siete horas), Tucuxi-BLAST lo hizo en 23 horas (menos de un día).</p>

<p>Los investigadores crearon un <a href="https://tucuxi-translator.csbiology.org/" target="_blank"><strong>sitio web</strong></a> donde es posible “traducir” palabras, frases y nombre en ADN.</p>

<p>Nakaya recuerda que algunos países, tales como Inglaterra, Canadá y Australia, invirtieron en iniciativas exitosas de análisis de datos, construyendo centros para la integración y el desarrollo de nuevas estrategias de análisis.</p>

<p>En Brasil, un ejemplo de ello es el Centro de Integración de Datos y Conocimientos en Salud (<a href="https://cidacs.bahia.fiocruz.br/" target="_blank"><strong>Cidacs/Fiocruz</strong></a>), que dispone de un banco con información de 114 millones de brasileños, obtenida mediante la integración de bases administrativas y de salud.</p>

<p>Puede leerse el artículo intitulado <em>Tucuxi-BLAST: Enabling fast and accurate record linkage of large-scale health-related administrative databases through a DNA-encoded approach</em> en el siguiente enlace: <a href="https://peerj.com/articles/13507/" target="_blank"><strong>peerj.com/articles/13507/</strong></a>. </p>

<p> </p>