В данном исследовании изучается, как семантически схожие проблемы, представленные через различные контекстные фреймы, вызывают разные ответы у больших языковых моделей, настроенных по инструкциям, что может ставить под сомнение надежность системы. Используя контролируемые сопоставленные промпты и послойный анализ зондирования, авторы демонстрируют, что фрейминг систематически изменяет тенденции интерпретационного ответа в архитектурах нескольких моделей.
- Фрейминг систематически изменяет тенденции интерпретационного ответа в архитектурах.
- Информация, связанная с поведением, остается декодируемой на протяжении всей глубины трансформера при вариации силы декодирования, зависящей от архитектуры.
- Зондирование на выделенных фреймах оставалось стабильно выше уровня случайности, несмотря на сильные лексические базовые линии.
- Эксперименты с управлением активацией предполагают, что направления репрезентаций, связанные с фреймингом, могут частично модулировать последующие поведенческие результаты.
Результаты указывают на то, что устойчивость к контекстным вариациям является критически важным аспектом при оценке согласованности и надежности систем разговорного ИИ, развернутых во взаимодействиях в сфере ментального здоровья.