LeanGuard: Быстрый и легкий подход к надежной модерации
В данной работе исследуется, действительно ли защитные механизмы требуют рассуждений по цепочке (chain-of-thought), путем обучения легковесного двунаправленного кодировщика совместно с основанным на рассуждениях защитным механизмом на одном и том же корпусе данных. Авторы обнаруживают, что удаление рассуждений не улучшает точность модерации, оспаривая распространенное мнение о необходимости пошагового мышления для эффективной модерации.