本研究调查了大型语言模型在应用于多项选择题问答(MCQA)任务时,由角色驱动的生成(PDG)的不稳定性。与自由文本交互相比,这一领域往往被忽视。作者开发了三个指标来评估不同维度上的性能、结果和题目正确性稳定性。
- 不稳定性在模型家族、模型大小和题目领域之间一致地变化,数学题和常识题表现出更大的不稳定性。
- 任务提示格式比其他超参数(如温度)引入了更多的预测不稳定性。
- 不稳定性与任务准确性相关,表明尽管角色相似,不同的实验设置可能导致不同最佳和最差的角色。
研究结果强调了在基于角色的生成中检查超参数不稳定性的必要性,以确保可靠的性能。