Studi ini menyelidiki ketidakstabilan generasi berbasis persona (PDG) dalam model bahasa besar ketika diterapkan pada tugas jawaban pertanyaan pilihan ganda (MCQA), sebuah domain yang sering terabaikan dibandingkan dengan interaksi teks bebas. Para penulis mengembangkan tiga metrik untuk mengevaluasi stabilitas kinerja, hasil, dan kebenaran pertanyaan di berbagai dimensi.
- Ketidakstabilan bervariasi secara konsisten antar keluarga model, ukuran model, dan domain pertanyaan, dengan pertanyaan matematika dan pengetahuan umum menunjukkan ketidakstabilan yang lebih besar.
- Format prompt tugas memperkenalkan lebih banyak ketidakstabilan prediksi dibandingkan hiperparameter lain seperti suhu.
- Ketidakstabilan terkait dengan akurasi tugas, mengungkapkan bahwa pengaturan eksperimen yang berbeda dapat menghasilkan persona terbaik dan terburuk yang berbeda meskipun mirip.
Temuan ini menyoroti pentingnya memeriksa ketidakstabilan hiperparameter dalam generasi berbasis persona untuk memastikan kinerja yang andal.