Исследователи представляют ToxiREX, новый многоязычный набор данных, предназначенный для выявления и объяснения неявной, зависящей от контекста токсичности в ветках комментариев Reddit. Набор данных использует систематическую схему токсичного REasoning для предоставления структурированных аннотаций к комментариям, связанным с крупными глобальными событиями, на шести языках.

  • Включает 125 000 аннотированных обучающих комментариев, сгенерированных LLM, и почти 3 000 тестовых комментариев, аннотированных носителями языка.
  • Охватывает комментарии на английском, арабском, турецком, испанском, немецком и нидерландском языках, связанные с конкретными событиями, такими как землетрясения в Турции 2023 года и российское вторжение в Украину.
  • Предоставляет базовые результаты при использовании промптинга и дообучения моделей, демонстрируя, что хотя производительность превышает случайный выбор, необходимы значительные улучшения.

ToxiREX — это первый набор данных, который одновременно включает несколько языков, контекст разговора и неявную токсичность с использованием схемы токсичного REasoning для богатых структурированных аннотаций.