Es un sistema destinado a empresas de servicios de e-commerce, e-learning y e-banking, entre otras (imagen: espectrograma de la voz humana/ Dvortygirl, Mysid/ Wikimedia Commons)
La empresa SpeechTera invierte en cuatro productos distintos: corpus del habla, modelos acústicos, modelos de pronunciación y convertidores de grafema a fonema
La empresa SpeechTera invierte en cuatro productos distintos: corpus del habla, modelos acústicos, modelos de pronunciación y convertidores de grafema a fonema
Es un sistema destinado a empresas de servicios de e-commerce, e-learning y e-banking, entre otras (imagen: espectrograma de la voz humana/ Dvortygirl, Mysid/ Wikimedia Commons)
Por Suzel Tunes | FAPESP Investigación para la Innovación – Cuando Vanessa Marquiafável Serrani ingresó a la carrera de Licenciatura en Letras de la Universidad Federal de São Carlos (UFSCar), en Brasil, en el año 2000, su futuro profesional parecía estar definido: sería profesora de inglés. Pero su trayectoria varió durante sus estudios universitarios cuando conoció el Núcleo Interinstitucional de Lingüística Computacional (NILC) de la Universidad de São Paulo, con sede en su campus de São Carlos, durante un proyecto de iniciación a la investigación científica. Y terminó dejando de lado su trayectoria académica para abocarse a su labor como emprendedora.
En la actualidad Vanessa Marquiafável Serrani es socia propietaria de la empresa SpeechTera Desenvolvimento de Programas para Computadores Ltda. Y con el apoyo del Programa de Investigación Innovadora en Pequeñas Empresas (PIPE) de la FAPESP lleva adelante un proyecto de creación de recursos computacionales para tecnologías del habla destinadas al portugués de Brasil.
El proyecto culminó la Etapa I del PIPE –de pruebas de factibilidad– en el año 2016, y se encuentra en la Etapa II –de desarrollo propiamente dicho–, con finalización prevista para 2019, cuando SpeechTera espera sacar al mercado los recursos computacionales esenciales para el desarrollo de sistemas de síntesis y reconocimiento del habla. La lingüista explica que existen diversas aplicaciones para esta rama de la tecnología: la creación de comandos de voz para dispositivos electrónicos, el perfeccionamiento de la pronunciación en el área de la enseñanza de idiomas, los traductores automáticos, los sistemas terapéuticos para personas con patologías del habla y la inclusión digital de personas con discapacidad visual o motora, entre otras.
Es posible incluso crear voces personalizadas para la gente que padece trastornos del habla. “La voz constituye un rasgo de identidad de cada individuo”, dice Marquiafável Serrani. Con todo, debido al alto costo de los sistemas de síntesis de voz desarrollados en el exterior, las empresas de tecnología tienden a crear pocos tipos de voces sintéticas, lo cual puede generar insatisfacción e incluso rechazo por parte de sus usuarios.
El desarrollo de una tecnología nacional, con la consiguiente disminución de costos, puede generar nuevas alternativas de voces personalizadas masculinas, femeninas e infantiles. “Es posible incluso extraer rasgos acústicos de pequeñas muestras del habla para construir una voz sintética personalizada destinada a individuos que, debido a sus dificultades motoras, logran articular tan sólo algunas palabras o hasta algunas pocas vocales”, añade la investigadora.
Según Marquiafável Serrani, el modelo de negocios de SpeechTera será fundamentalmente business-to-business: sus clientes serán empresas desarrolladoras de servicios basados en tecnologías del habla de los sectores de e-commerce, e-learning y e-banking, aparte de hospitales, clínicas y centros de salud.
SpeechTera está invirtiendo en cuatro productos distintos: corpus del habla, modelos acústicos, modelos de pronunciación y convertidores de grafema a fonema. La lingüista explica que los corpus (del latín corpus, conjuntos) constituyen las bases de datos de voz que utilizan los sintetizadores. “Recolectamos las voces de personas con edades entre 18 y 65 años, de diversos perfiles y con distintos acentos brasileños. De este modo, cuanto mayor es la variabilidad, mejor podrá ser el desempeño de un reconocedor del habla.”
Los modelos acústicos se encargan de determinar las características acústicas de los fonemas de la lengua. Los modelos de pronunciación son los diccionarios fonéticos, listas de palabras a las cuales quedan asociadas sus respectivas pronunciaciones de acuerdo con un alfabeto fonético que la computadora puede leer.
“Estos diccionarios se transcriben de acuerdo con 13 acentos brasileños distintos que seleccionamos entre la enorme variedad existente en el país”, explica Marquiafável Serrani. Y el convertidor de grafema a fonema es el algoritmo que transforma el texto de entrada que está en el formato ortográfico convencional en una secuencia de símbolos fonéticos que la computadora puede tratar. Según la investigadora, estos productos podrán comercializarse en forma individual o por separado.
Una colección de voces
“Ésta es un área relativamente nueva, en la cual existe una carencia significativa de investigaciones. Cuando descubrí esta vertiente me sentí sumamente motivada a trabajar con la tecnología de voz”, dice Marquiafável Serrani. De acuerdo con la lingüista, el Núcleo Interinstitucional de Lingüística Computacional (NILC), vinculado al Instituto de Ciencias Matemáticas y Computación de la USP de São Carlos reúne al mayor grupo de investigación en Lingüística Computacional de Brasil, con un equipo multidisciplinario compuesto por lingüistas y científicos de la computación.
Investigadores de este laboratorio desarrollaron el corrector ortográfico de Word, el procesador de textos de Microsoft, en el marco de un amplio proyecto que contó con inversiones de la empresa Itautec y de la FAPESP, en este último caso en el marco del PITE (las siglas en portugués del Programa de Apoyo a la Investigación en Asociación para la Innovación Tecnológica). Ese proyecto tuvo lugar entre los años 1997 y 1998. Posteriormente, en el año 2000, Microsoft compró los derechos de utilización de la herramienta que el laboratorio desarrolló y se la agregó al paquete Office.
El primer contacto de Marquiafável Serrani con la lingüística computacional se concretó cuando cursaba su carrera de grado. Posteriormente, durante el interregno entre su maestría (concluida en 2007) y su doctorado (que comenzó en 2011), la lingüista tuvo la oportunidad de trabajar en un proyecto PIPE del ingeniero electricista Luis Felipe Uebel que apuntaba al desarrollo de un navegador de internet con reconocimiento y síntesis del habla. “Elaboré un diccionario fonético para ese proyecto. Abordaba a las personas en la USP de São Carlos y les pedía para grabar sus voces.”
Merced a ese trabajo, Marquiafável Serrani acumuló una experiencia que le fue sumamente útil cuando se decidió a abrir SpeechTera, en abril de 2015. El recabado de voces, por ejemplo, se volvió mucho más fácil: en lugar de salir abordando a la gente y grabarla, la empresa desarrolló una aplicación de grabación y envío de voces vía smartphones.
“Basta con enviarle el enlace y la persona puede entonces bajarla en su celular para efectuar la grabación”, explica. “Reunimos las voces de 400 personas. Cada una de ellas grabó un audio de 100 oraciones cortas y percibió una ayuda de costos por valor de 30 reales. Esa inversión (fueron 12 mil reales en total) fue menor que la que gastaríamos pagándoles a profesionales y con viáticos durante el trabajo presencial, y por añadidura ahorramos tiempo.”
Para el desarrollo de los recursos computacionales, la empresa cuenta con un equipo multidisciplinario, en el cual se incluyen, además de lingüistas, ingenieros electricistas y científicos de la computación.
SpeechTera es una startup en estructuración y no cuenta con una sede propia: su equipo, integrado por seis personas, trabaja en modo home office en los municipios paulistas de Araras, Hortolândia, São Carlos y Araraquara, y el sitio web de la empresa aún no se encuentra activo. La compañía, que está totalmente enfocada en el desarrollo de los productos, aún no posee ingresos por fuera del apoyo de la FAPESP. E incluso antes de haber adoptado alguna estrategia de difusión (ahora está elaborando un proyecto de marketing) ha sido contactada por dos grandes empresas interesadas en adquirir recursos destinados al desarrollo de tecnologías del habla. Por este motivo, las expectativas son sumamente halagüeñas: “Estamos cumpliendo tanto el cronograma como los objetivos inicialmente planteados para el proyecto, gracias al excelente equipo multidisciplinario que logramos montar a lo largo de este camino.”
Empresa: SpeechTera Desenvolvimento de Programas para Computadores
Teléfono: +55 (19) 97142-4872
Contacto: speechtera@gmail.com y marquiafavel@gmail.com
The Agency FAPESP licenses news via Creative Commons (CC-BY-NC-ND) so that they can be republished free of charge and in a simple way by other digital or printed vehicles. Agência FAPESP must be credited as the source of the content being republished and the name of the reporter (if any) must be attributed. Using the HMTL button below allows compliance with these rules, detailed in Digital Republishing Policy FAPESP.