Identifica contenido tóxico en línea

contenido tóxico

Identifica contenido tóxico en línea. Las plataformas sociales, grandes y pequeñas, luchan por mantener a sus comunidades a salvo del discurso de odio, el contenido extremista, el acoso y la desinformación.

Los agitadores de extrema derecha publicaron abiertamente sobre planes para asaltar el Capitolio de los EE. UU. Antes de hacerlo el 6 de enero. Una solución podría ser la inteligencia artificial: desarrollar algoritmos para detectar y alertarnos sobre comentarios tóxicos e inflamatorios y marcarlos para su eliminación. Pero tales sistemas enfrentan grandes desafíos.

La prevalencia del lenguaje odioso u ofensivo en línea ha aumentado rápidamente en los últimos años y el problema es ahora desenfrenado. En algunos casos, los comentarios tóxicos en línea incluso han resultado en violencia en la vida real, desde el nacionalismo religioso en Myanmar hasta la propaganda neonazi en los EE. UU. Las plataformas de redes sociales, que dependen de miles de revisores humanos, luchan por moderar el volumen cada vez mayor de contenido.

En 2019, se informó que los moderadores de Facebook corren el riesgo de sufrir PTSD como resultado de la exposición repetida a contenido tan angustiante. Subcontratar este trabajo al aprendizaje automático puede ayudar a administrar los crecientes volúmenes de contenido dañino, al tiempo que limita la exposición humana a él. De hecho, muchos gigantes de la tecnología llevan años incorporando algoritmos en la moderación de su contenido.

Identifica contenido tóxico en línea. Un ejemplo de ello es Jigsaw de Google, una empresa que se centra en hacer que Internet sea más seguro. En 2017, ayudó a crear Conversation AI, un proyecto de investigación colaborativa que tiene como objetivo detectar comentarios tóxicos en línea. Sin embargo, una herramienta producida por ese proyecto, llamada Perspectiva, enfrentó críticas sustanciales.

Una queja común era que creaba un «puntaje de toxicidad» general que no era lo suficientemente flexible para satisfacer las diversas necesidades de las diferentes plataformas. Algunos sitios web, por ejemplo, pueden requerir la detección de amenazas pero no de blasfemias, mientras que otros pueden tener los requisitos opuestos.

Otro problema fue que el algoritmo aprendió a combinar comentarios tóxicos con comentarios no tóxicos que contenían palabras relacionadas con el género, la orientación sexual, la religión o la discapacidad. Por ejemplo, un usuario informó que las oraciones neutrales simples como «Soy una mujer negra gay» o «Soy una mujer sorda» dieron como resultado puntuaciones de toxicidad altas, mientras que «Soy un hombre» dieron como resultado una puntuación baja.

Identifica contenido tóxico en línea. Siguiendo estas inquietudes, el equipo de Conversation AI invitó a los desarrolladores a entrenar sus propios algoritmos de detección de toxicidad y a participar en tres competencias (una por año) alojadas en Kaggle, una subsidiaria de Google conocida por su comunidad de profesionales del aprendizaje automático, conjuntos de datos públicos y desafíos.

Para ayudar a entrenar los modelos de IA, Conversation AI publicó dos conjuntos de datos públicos que contienen más de un millón de comentarios tóxicos y no tóxicos de Wikipedia y un servicio llamado Civil Comments. Los anotadores calificaron los comentarios según su toxicidad, con una etiqueta de «Muy tóxico» que indica «un comentario muy odioso, agresivo o irrespetuoso que es muy probable que lo haga abandonar una discusión o dejar de compartir su perspectiva», y un «Tóxico».

«Etiqueta que significa» un comentario grosero, irrespetuoso o irrazonable que probablemente lo haga dejar una discusión o dejar de compartir su perspectiva «. Algunos comentarios fueron vistos por más de 10 anotadores (hasta miles), debido al muestreo y las estrategias utilizadas para hacer cumplir la precisión de los evaluadores.

El objetivo del primer desafío de Jigsaw fue construir un modelo de clasificación de comentarios tóxicos de múltiples etiquetas con etiquetas como «tóxico», «tóxico grave», «amenaza», «insulto», «obsceno» y «odio a la identidad». El segundo y tercer desafío se centraron en limitaciones más específicas de su API: minimizar el sesgo no intencionado hacia grupos de identidad predefinidos y entrenar modelos multilingües con datos solo en inglés.

Aunque los desafíos llevaron a algunas formas inteligentes de mejorar los modelos de lenguaje tóxicos, nuestro equipo en Unitary, una empresa de inteligencia artificial de moderación de contenido, descubrió que ninguno de los modelos entrenados se había lanzado públicamente.

Contenido tóxico

Identifica contenido tóxico en línea. Por esa razón, decidimos inspirarnos en las mejores soluciones de Kaggle y entrenar nuestros propios algoritmos con la intención específica de lanzarlos públicamente. Para hacerlo, confiamos en los modelos de «transformadores» existentes para el procesamiento del lenguaje natural, como el BERT de Google. Muchos de estos modelos son accesibles en una biblioteca de transformadores de código abierto.

Así es como nuestro equipo creó Detoxify, una biblioteca de detección de comentarios de código abierto y fácil de usar para identificar texto inapropiado o dañino en línea. Su uso previsto es ayudar a los investigadores y profesionales a identificar posibles comentarios tóxicos.

Como parte de esta biblioteca, lanzamos tres modelos diferentes correspondientes a cada uno de los tres desafíos de Jigsaw. Si bien las mejores soluciones de Kaggle para cada desafío utilizan conjuntos de modelos, que promedian las puntuaciones de varios modelos entrenados, obtuvimos un rendimiento similar con solo un modelo por desafío.

Se puede acceder fácilmente a cada modelo en una línea de código y todos los modelos y el código de entrenamiento están disponibles públicamente en GitHub. También puede probar una demostración en Google Colab.

Si bien estos modelos funcionan bien en muchos casos, es importante tener en cuenta también sus limitaciones. En primer lugar, estos modelos funcionarán bien en ejemplos que sean similares a los datos sobre los que han sido entrenados. Pero es probable que fracasen si se enfrentan a ejemplos desconocidos de lenguaje tóxico.

Identifica contenido tóxico en línea. Alentamos a los desarrolladores a ajustar estos modelos en conjuntos de datos representativos de su caso de uso. Además, notamos que la inclusión de insultos o blasfemias en un comentario de texto casi siempre dará como resultado una puntuación alta de toxicidad, independientemente de la intención o el tono del autor.

Como ejemplo, la oración «Estoy cansado de escribir este ensayo estúpido» dará una puntuación de toxicidad del 99,7 por ciento, mientras que eliminar la palabra «estúpido» cambiará la puntuación al 0,05 por ciento.

Por último, a pesar del hecho de que uno de los modelos lanzados ha sido entrenado específicamente para limitar el sesgo no intencionado, es probable que los tres modelos muestren algún sesgo, lo que puede plantear preocupaciones éticas cuando se usan de manera estándar para moderar el contenido.

Aunque ha habido un progreso considerable en la detección automática del habla tóxica, todavía tenemos un largo camino por recorrer hasta que los modelos puedan capturar el significado real y matizado detrás de nuestro lenguaje, más allá de la simple memorización de palabras o frases particulares. Por supuesto, invertir en conjuntos de datos mejores y más representativos produciría mejoras incrementales, pero debemos dar un paso más y comenzar a interpretar los datos en contexto, una parte crucial para comprender el comportamiento en línea.

Una publicación de texto aparentemente benigna en las redes sociales acompañada de simbolismo racista en una imagen o video se perdería fácilmente si solo miramos el texto. Sabemos que la falta de contexto a menudo puede ser la causa de nuestros propios errores de juicio humanos. Si la IA tiene la oportunidad de reemplazar el esfuerzo manual a gran escala, es imperativo que demos a nuestros modelos una imagen completa.

Identifica contenido tóxico en línea

Contenido tóxico