Аудит поведенческой нестабильности, чувствительной к фреймингу, в LLM для ментального здоровья
В данном исследовании изучается, как семантически схожие проблемы, представленные через различные контекстные фреймы, вызывают разные ответы у больших языковых моделей, настроенных по инструкциям, что может ставить под сомнение надежность системы. Используя контролируемые сопоставленные промпты и послойный анализ зондирования, авторы демонстрируют, что фрейминг систематически изменяет тенденции интерпретационного ответа в архитектурах нескольких моделей.