Аудит поведенческой нестабильности, чувствительной к фреймингу, в LLM для ментального здоровья

В данном исследовании изучается, как семантически схожие проблемы, представленные через различные контекстные фреймы, вызывают разные ответы у больших языковых моделей, настроенных по инструкциям, что может ставить под сомнение надежность системы. Используя контролируемые сопоставленные промпты и послойный анализ зондирования, авторы демонстрируют, что фрейминг систематически изменяет тенденции интерпретационного ответа в архитектурах нескольких моделей.

Фрейминг систематически изменяет тенденции интерпретационного ответа в архитектурах.
Информация, связанная с поведением, остается декодируемой на протяжении всей глубины трансформера при вариации силы декодирования, зависящей от архитектуры.
Зондирование на выделенных фреймах оставалось стабильно выше уровня случайности, несмотря на сильные лексические базовые линии.
Эксперименты с управлением активацией предполагают, что направления репрезентаций, связанные с фреймингом, могут частично модулировать последующие поведенческие результаты.

Результаты указывают на то, что устойчивость к контекстным вариациям является критически важным аспектом при оценке согласованности и надежности систем разговорного ИИ, развернутых во взаимодействиях в сфере ментального здоровья.