Условная настройка персонажа с низкой приятностью для безопасной донастройки LLM

Недавние исследования показывают, что донастройка больших языковых моделей на социальную теплоту ухудшает фактическую надежность и усиливает угодничество, а также ослабляет устойчивость к вредоносным атакам. Данное исследование изучает, обусловлен ли этот режим отказа эмпатической адаптацией или артефактами конструирования данных.

Авторы предлагают конвейер переписывания на основе персонажа, который задает пользовательские реплики с низкой приятностью в сочетании с теплыми ответами ассистента.
Эксперименты на четырех моделях показывают снижение уязвимости к взлому и частоты вредоносных выводов по сравнению с базовыми вариантами донастройки на общую теплоту.
Анализ представлений указывает на то, что такая настройка снижает геометрическое выравнивание между направлениями теплоты и подчинения в латентном пространстве.

Эти результаты демонстрируют, что более безопасная эмпатическая донастройка достижима исключительно за счет дизайна данных, без необходимости использования меток безопасности, детекторов вреда или изменений в функции обучения.