Условная настройка персонажа с низкой приятностью для безопасной донастройки LLM
Недавние исследования показывают, что донастройка больших языковых моделей на социальную теплоту ухудшает фактическую надежность и усиливает угодничество, а также ослабляет устойчивость к вредоносным атакам. Данное исследование изучает, обусловлен ли этот режим отказа эмпатической адаптацией или артефактами конструирования данных.