本研究は、自由形式のテキスト対話と比較して見過ごされがちな領域である複数選択問題回答(MCQA)タスクにおいて、大規模言語モデルにおけるペルソナ駆動型生成(PDGs)の不安定性を調査する。著者らは、異なる次元にわたるパフォーマンス、結果、および質問の正答率の安定性を評価するために3つの指標を開発した。

  • 不安定性は、モデルファミリー、モデルサイズ、および質問ドメイン間で一貫して変化し、数学および常識に関する質問はより大きな不安定性を示す。
  • タスクプロンプト形式は、温度などの他のハイパーパラメータと比較して、より多くの予測不安定性をもたらす。
  • 不安定性はタスクの精度と関連しており、類似したペルソナであっても異なる実験設定が異なる最良および最悪のペルソナをもたらす可能性があることを示している。

これらの知見は、信頼性の高いパフォーマンスを確保するために、ペルソナ駆動型生成におけるハイパーパラメータの不安定性を確認することが重要であることを強調している。