Científicos desarrollan una solución destinada reconocer contenido pornográfico mediante la combinación de aprendizaje de máquinas con análisis de imágenes estáticas y en movimiento

Un nuevo método permite detectar el 97% de la pornografía en celulares y computadoras
20-04-2017

Científicos desarrollan una solución destinada reconocer contenido pornográfico mediante la combinación de aprendizaje de máquinas con análisis de imágenes estáticas y en movimiento

Un nuevo método permite detectar el 97% de la pornografía en celulares y computadoras

Científicos desarrollan una solución destinada reconocer contenido pornográfico mediante la combinación de aprendizaje de máquinas con análisis de imágenes estáticas y en movimiento

20-04-2017

Científicos desarrollan una solución destinada reconocer contenido pornográfico mediante la combinación de aprendizaje de máquinas con análisis de imágenes estáticas y en movimiento

 

Por Peter Moon  |  Agência FAPESP – Uno de los problemas más apremiantes de la universalización del uso de los celulares y de internet es el acceso indiscriminado a sitios web y videos con contenido pornográfico. El acceso a tales contenidos puede ser voluntario y realizado por usuarios mayores de edad, pero también puede ser absolutamente desaconsejable cuando implica a menores.

El acceso puede también ser involuntario, cuando se reciben mensajes de correo electrónico indeseables, con anuncios con contenido obsceno, u ocurrir de manera inadvertida, cuando se visita un sitio web invadido por piratas de la tecnología que publican en él contenido pornográfico.

La industria de tecnología de la información y los proveedores de contenido buscan constantemente alternativas capaces de filtrar en tiempo real el contenido indeseable, bloqueando su transmisión o su exhibición.

Sistemas de este tipo son valiosos para los órganos policiales, pues perfeccionan y agilizan el trabajo de rastreo y enfrentamiento contra la producción y la divulgación de pornografía infantil, por ejemplo. Las empresas y las escuelas también se benefician con el desarrollo de dichas tecnologías, pues pueden bloquear el contenido considerado ofensivo al que se accede a través de sus computadoras.

Y fue precisamente en busca de una tecnología con tales características que investigadores de Samsung Research Institute Brazil consultaron en 2012 al Instituto de Computación (IC) de la Universidad de Campinas (Unicamp), en São Paulo, Brasil.

Estaban buscando una solución para instalarla en el sistema operativo de celulares, televisores y computadoras que les permitiera a los consumidores con hijos contar con la posibilidad de bloquear previamente, al momento de la compra de un aparato, por ejemplo, el acceso a contenido sensible”, dijo Anderson Rocha, docente del IC-Unicamp y coordinador de la investigación.

Y la colaboración entre la universidad y la empresa derivó en el desarrollo en 2015 de un sistema basado en tecnología de aprendizaje de máquinas (o inteligencia artificial), capaz de filtrar más del 90% del contenido pornográfico en un dispositivo. Esta nueva tecnología fue patentada en copropiedad entre Samsung y la Unicamp.

Los investigadores prosiguieron buscando nuevas formas de elevar aún más el índice de detección de contenidos sensibles, ya sean éstos pornográficos o violentos. La solución que generó mejores resultados consistió en combinar informaciones estáticas de fotografías con informaciones dinámicas de videos.

“Contamos actualmente con un filtro bastante eficaz, capaz de identificar más del 97% del contenido pornográfico en general. Se trata de un nivel superior a las soluciones que actualmente están consideradas como el estado del arte, cuya eficacia suele oscilar entre el 87% y el 94%”, explica el investigador, quien en la actualidad se encuentra en un período sabático en la Nanyang Technological University, en Singapur.

Rocha y otros investigadores del IC-Unicamp y de Samsung publicaron recientemente un artículo en el periódico Neurocomputing  en el cual detallan los pasos del desarrollo de esta nueva tecnología. La investigación contó con el apoyo de la FAPESP.

Con este nuevo método, los investigadores plantean una combinación del uso de informaciones estáticas y de movimiento con una metodología de aprendizaje de máquinas conocida como “aprendizaje profundo” (deep learning).

“Se trata de una metodología de aprendizaje de máquinas basada en el aprendizaje de representaciones no lineales de los datos. Una imagen, por ejemplo, puede estar representada como un vector de valores que denota diversas transformaciones lineales en sus píxeles, que pueden capturar información relacionada con las cercanías de los píxeles, formas, aristas, o de otras diversas maneras, por ejemplo”, explicó Rocha.

En el aprendizaje profundo, la idea es buscar representaciones mejores en cada nivel del aprendizaje (normalmente en forma de una red con diversas capas) y crear modelos para aprender esas representaciones con base en datos a gran escala. Algunas de las representaciones están inspiradas en los avances de la neurociencia.

Sexo y violencia

Los sistemas pioneros de detección de pornografía consisten en intentar detectar primeramente las escenas de desnudez para luego definir cuál es el límite de exposición física aceptable, más allá del cual se configuraría la pornografía, que entonces pasaría a ser filtrada. Estas soluciones suelen emplear como base de comparación características de la piel humana tales como el color y la textura, aparte de datos de la geometría corporal humana.

El resultado a menudo deja mucho que desear, al filtrar menos o bloquear más de lo que debería. El problema reside en que no todas las imágenes con gran exposición de piel humana tienen que ver con el sexo, tal como es el caso de gente tomando sol o nadando, o escenas de peleadores de MMA o de lucha grecorromana, por ejemplo.

Una solución más avanzada podría comprender el filtrado de contenido adulto realizado con base en una lista de palabras clasificadas según descripciones de lo que está permitido y lo que es pornográfico.

Dicho método consistiría en insertar un estadio intermedio con la descripción de la imagen entre la extracción inicial de datos del contenido que se filtrará y su clasificación para su autorización o bloqueo. Con todo, este método aún sería incapaz de distinguir la diferencia existente entre escenas ambiguas. ¿Cómo diferenciar entre un examen médico y pornografía, por ejemplo?

En el caso de los videos, los investigadores de la Unicamp creen que se pueden disminuir la cantidad de los casos de ambigüedad adicionando otro elemento de clasificación: informaciones de movimiento extraídas en el transcurso del tiempo.

La solución que desarrollaron extrae un cuadro por segundo de cada video que es visto en tiempo real en el celular o en la computadora. Los cuadros con las imágenes estáticas son analizados a continuación aplicando el método de clasificación de descripciones de lo que está permitido y de lo que es pornográfico.

Al mismo tiempo, la secuencia de cuadros analizados suministra los elementos como para secuenciar los movimientos de los objetos y las personas presentes en la escena. Dependiendo del tipo de movimiento, el video es bloqueado.

Según Rocha, se puso a prueba el el método en un conjunto de datos con aproximadamente 140 horas con mil videos pornográficos y mil videos no pornográficos que variaban de 6 segundos a 33 minutos.

En los videos pornográficos trabajaban atores de etnias diversas y también se los consideró como dibujos animados. Entre los videos no pornográficos había escenas de bañistas en la playa y en clubes, o combates de luchas. Mediante el empleo de esta metodología, el equipo del Instituto de Computación de la Unicamp logró elevar el nivel de filtrado de pornografía al 97%.

“La tasa cae al 90% en el contenido se refiere específicamente a pornografía infantil y al 80% en cuando contiene escenas de violencia, situaciones que son mucho más difíciles de filtrar. Ambos temas forman parte de los nuevos esfuerzos de investigación del grupo del Instituto de Computación de la Unicamp. El filtro detecta cuándo empieza el contenido indeseable y cuándo termina. El sistema bloquea su exhibición tan pronto como comienza la pornografía vuelve a autorizarla ni bien concluye”, dijo Rocha.

“En el área forense, este sistema permite que se analicen 30 horas de videos en el disco rígido de la computador de un individuo para detectar media hora de pornografía infantil, por ejemplo, lo que configura una prueba consubstancial para procesarlo”, dijo.

Esta nueva tecnología de análisis de los movimientos tiene otras diversas aplicaciones, no sólo la de rastrear y bloquear pornografía. Los investigadores han empezado a emplear este método para analizar escenas de violencia en manifestaciones, por ejemplo.

“Es posible rastrear a un individuo en medio de una multitud por su modo de caminar. Es impresionante lo que se logra aprender actualmente mediante el análisis de datos”, dijo Rocha.

Puede leerse el artículo Video pornography detection through deep learning techniques and motion information:

(doi: http://dx.doi.org/10.1016/j.neucom.2016.12.017), de Mauricio Perez, Sandra Avila, Daniel Moreira, Daniel Moraes, Vanessa Testoni, Eduardo Valle, Siome Goldenstein y Anderson Rocha, está publicado en el siguiente enlace: www.sciencedirect.com/science/article/pii/S0925231216314928.

 

 

 

 

  Republicar
 

Republicar

The Agency FAPESP licenses news via Creative Commons (CC-BY-NC-ND) so that they can be republished free of charge and in a simple way by other digital or printed vehicles. Agência FAPESP must be credited as the source of the content being republished and the name of the reporter (if any) must be attributed. Using the HMTL button below allows compliance with these rules, detailed in Digital Republishing Policy FAPESP.