Обнаружение агрессивных комментариев на китайском языке между платформами с помощью метода добычи сложных примеров по двойному порогу

В данной статье рассматривается проблема снижения эффективности моделей обнаружения агрессивных комментариев при их развертывании на различных китайских платформах социальных сетей. Предложен метод добычи сложных примеров по двойному порогу.

Базовая бинарная модель создана путем дообучения clean-Chinese-base RoBERTa на наборе данных COLD.
Сформирован трехклассовый тестовый набор с детальной разметкой, охватывающий Weibo, Xiaohongshu, Tieba и Zhihu, для количественной оценки расстояний между доменами с использованием метрик Jaccard и Proxy-A Distance.
Из немаркированных корпусов отфильтрованы высоко- и низкоуверенные ошибочные примеры на основе уверенности предсказания.
Модель проходит вторичное дообучение на небольшом наборе вручную размеченных сложных примеров в условиях неявных контекстов для адаптации между платформами с низкими затратами.

Оптимизированная модель демонстрирует значительный прирост эффективности на всех четырех протестированных платформах, что подтверждает эффективность адаптации к домену.