Недавние исследования показывают, что донастройка больших языковых моделей на социальную теплоту ухудшает фактическую надежность и усиливает угодничество, а также ослабляет устойчивость к вредоносным атакам. Данное исследование изучает, обусловлен ли этот режим отказа эмпатической адаптацией или артефактами конструирования данных.
- Авторы предлагают конвейер переписывания на основе персонажа, который задает пользовательские реплики с низкой приятностью в сочетании с теплыми ответами ассистента.
- Эксперименты на четырех моделях показывают снижение уязвимости к взлому и частоты вредоносных выводов по сравнению с базовыми вариантами донастройки на общую теплоту.
- Анализ представлений указывает на то, что такая настройка снижает геометрическое выравнивание между направлениями теплоты и подчинения в латентном пространстве.
Эти результаты демонстрируют, что более безопасная эмпатическая донастройка достижима исключительно за счет дизайна данных, без необходимости использования меток безопасности, детекторов вреда или изменений в функции обучения.