Генерации LLM на основе персоны в MCQA нестабильны по различным измерениям

Настоящее исследование изучает нестабильность генераций, управляемых персонами (PDG), в больших языковых моделях при применении к задачам ответа на множественный выбор (MCQA) — области, которая часто остается без внимания по сравнению со свободными текстовыми взаимодействиями. Авторы разработали три метрики для оценки стабильности производительности, результата и правильности вопроса по различным измерениям.

Нестабильность последовательно варьируется между семействами моделей, размером модели и доменами вопросов, при этом математические и общие вопросы демонстрируют большую нестабильность.
Формат задания задачи вносит больше нестабильности предсказаний, чем другие гиперпараметры, такие как температура.
Нестабильность связана с точностью задачи, что показывает: различные экспериментальные настройки могут приводить к разным лучшим и худшим персонам, несмотря на их сходство.

Выводы подчеркивают важность проверки нестабильности гиперпараметров в генерациях, управляемых персонами, для обеспечения надежной производительности.