LeanGuard: Быстрый и легкий подход к надежной модерации

В данной работе исследуется, действительно ли защитные механизмы требуют рассуждений по цепочке (chain-of-thought), путем обучения легковесного двунаправленного кодировщика совместно с основанным на рассуждениях защитным механизмом на одном и том же корпусе данных. Авторы обнаруживают, что удаление рассуждений не улучшает точность модерации, оспаривая распространенное мнение о необходимости пошагового мышления для эффективной модерации.

Легковесный кодировщик только меток с 395M параметров достигает среднего F1 равного 82.90 ± 0.26 на публичных бенчмарках.
Модель демонстрирует производительность, сопоставимую с гораздо более крупным защитным механизмом на рассуждениях, построенным на архитектуре декодера.

Для вывода требуется только один прямой проход для входных данных до 512 токенов, что приводит примерно к 100-кратному снижению вычислительных затрат.

Легковесный кодировщик только меток демонстрирует большую устойчивость к шуму в обучающих метках и сохраняет более высокий уровень полноты (recall) при строгих уровнях ложноположительных срабатываний по сравнению с защитным механизмом на рассуждениях.

Полученные результаты указывают на то, что текущие бенчмарки для защитных механизмов могут быть недостаточно сложными для стимулирования использования рассуждений, и необходимость цепочки рассуждений для модерации остается недоказанной, предлагая более эффективное решение для развертывания на устройствах.