MCQA中基于角色的LLM生成在不同维度上不稳定

本研究调查了大型语言模型在应用于多项选择题问答（MCQA）任务时，由角色驱动的生成（PDG）的不稳定性。与自由文本交互相比，这一领域往往被忽视。作者开发了三个指标来评估不同维度上的性能、结果和题目正确性稳定性。

研究结果强调了在基于角色的生成中检查超参数不稳定性的必要性，以确保可靠的性能。