Исследователи предлагают таксономию, ориентированную на механизмы, косвенных лингвистических выражений (ILE) для классификации базовых операций, используемых для кодирования и восстановления смысла в закодированном языке. Этот подход абстрагируется от коммуникативных целей, чтобы сосредоточиться на конкретных механизмах кодирования, обнаруживаемых в алгоспике, эвфемизмах и враждебном обфускации.

  • Таксономия была оценена путем ее включения в промпты LLM вместе с четырьмя существующими таксономиями и базовым вариантом без таксономии.
  • Тестирование использовало 2000 вручную аннотированных постов из TikTok и Bluesky для оценки производительности на трех различных больших языковых моделях.
  • Предложенный метод показал наилучшие результаты на уровне документа и отрывка, улучшив точность на 4,7% и F1-меру на 5,4% по сравнению с лучшим эталоном.

Результаты демонстрируют, что комплексная таксономия, ориентированная на механизмы, служит надежной основой для обнаружения новых форм закодированного языка и предоставляет полезную информацию для систем модерации контента.