Настоящее исследование изучает нестабильность генераций, управляемых персонами (PDG), в больших языковых моделях при применении к задачам ответа на множественный выбор (MCQA) — области, которая часто остается без внимания по сравнению со свободными текстовыми взаимодействиями. Авторы разработали три метрики для оценки стабильности производительности, результата и правильности вопроса по различным измерениям.
- Нестабильность последовательно варьируется между семействами моделей, размером модели и доменами вопросов, при этом математические и общие вопросы демонстрируют большую нестабильность.
- Формат задания задачи вносит больше нестабильности предсказаний, чем другие гиперпараметры, такие как температура.
- Нестабильность связана с точностью задачи, что показывает: различные экспериментальные настройки могут приводить к разным лучшим и худшим персонам, несмотря на их сходство.
Выводы подчеркивают важность проверки нестабильности гиперпараметров в генерациях, управляемых персонами, для обеспечения надежной производительности.