arxiv
arXiv cs.CL
·
2 д назад
Валидационно-ограниченный механизм анализа выявления суицидальных состояний в LLMs
Валидационно-ограниченная система оценивает внутренние характеристики LLM только после наблюдения за поведением, выявляя средний слой признака, который причинно вносит вклад в выявление суицидальных состояний. Этот признак является семантическим, низкого ранга, межмодельным и специфичным для суицидальных состояний по сравнению с общими состояниями тревоги, хотя направление его регулирования необходимо, но недостаточно. Паттерн показывает, что меньшие модели кодируют суицидальные состояния, но только более крупные модели реагируют на них, при этом доказательства ограничены английским текстом реддит-форумов.