Обзор стратегий обнаружения и смягчения токсичности для многоязычных языковых моделей
В данном обобщающем исследовании синтезируются материалы по обнаружению токсичности и стратегиям детоксикации, специально разработанным для многоязычных больших языковых моделей. В нем систематизируются модели угроз, использующие лингвистические вариации, такие как код-свитчинг (переключение кодов), орфографические различия и трансляционные пивоты, для обхода механизмов безопасности. Авторы структурируют существующие работы по формулировкам задач, таким как переписывание токсичного текста в нейтральный и классификация, а также по различным подходам обнаружения, включая кроссоязычные энкодеры и детекторы на основе больших языковых моделей. Стратегии смягчения подробно рассматриваются в контексте фильтрации данных, контролируемой тонкой настройки, управления процессом декодирования и внедрения многоязычных систем контроля (guardrails). Анализ подчеркивает сохраняющиеся проблемы в области, в частности неравномерное покрытие языков и фрагментированные протоколы оценки. Кроме того, обсуждается сложность культурно обусловленных определений вреда и риск того, что усилия по детоксикации могут подавить легитимные диалектные или связанные с идентичностью формы выражения.