Los investigadores presentan ToxiREX, un nuevo conjunto de datos multilingüe diseñado para capturar y explicar la toxicidad implícita y dependiente del contexto dentro de las hilos de comentarios de Reddit. El conjunto de datos utiliza un esquema sistemático de razonamiento tóxico para proporcionar anotaciones estructuradas para comentarios relacionados con eventos globales importantes en seis idiomas.

  • Incluye 125,000 comentarios de entrenamiento anotados generados por un LLM y casi 3,000 comentarios de prueba anotados por hablantes nativos.
  • Cubre comentarios en inglés, árabe, turco, español, alemán y neerlandés vinculados a eventos específicos como los terremotos de Turquía de 2023 y la invasión rusa de Ucrania.
  • Proporciona resultados base mediante el uso de prompting y ajuste fino de modelos, demostrando que, aunque el rendimiento supera al azar, se necesita una mejora significativa.

ToxiREX es el primer conjunto de datos que incorpora simultáneamente múltiples idiomas, contexto conversacional y toxicidad implícita utilizando un esquema de razonamiento tóxico para anotaciones ricas y estructuradas.