За пределами поверхностных форм: комплексная таксономия, ориентированная на механизмы, косвенного лингвистического кодирования для обнаружения закодированного языка на основе LLM

Исследователи предлагают таксономию, ориентированную на механизмы, косвенных лингвистических выражений (ILE) для классификации базовых операций, используемых для кодирования и восстановления смысла в закодированном языке. Этот подход абстрагируется от коммуникативных целей, чтобы сосредоточиться на конкретных механизмах кодирования, обнаруживаемых в алгоспике, эвфемизмах и враждебном обфускации.

Таксономия была оценена путем ее включения в промпты LLM вместе с четырьмя существующими таксономиями и базовым вариантом без таксономии.
Тестирование использовало 2000 вручную аннотированных постов из TikTok и Bluesky для оценки производительности на трех различных больших языковых моделях.
Предложенный метод показал наилучшие результаты на уровне документа и отрывка, улучшив точность на 4,7% и F1-меру на 5,4% по сравнению с лучшим эталоном.

Результаты демонстрируют, что комплексная таксономия, ориентированная на механизмы, служит надежной основой для обнаружения новых форм закодированного языка и предоставляет полезную информацию для систем модерации контента.