Введение в COGNITIVE ATROSPHY BENCH для взаимодействий LLM в области психического здоровья
Новый бенчмарк COGNITIVE ATROSPHY BENCH оценивает, насколько LLM вызывают снижение когнитивных функций в диалогах по психическому здоровью. Создан на основе 1576 человеческих сессий консультаций и оценен клиническими экспертами, он выявляет паттерны, такие как директивные рекомендации и подтверждение, которые могут снижать автономность пользователя. Инструмент вводит метрики, такие как UIRI и ARI, для оценки риска снижения когнитивных функций и отслеживания поведенческих траекторий в ходе взаимодействий пользователя.