تحقق هذه الدراسة من عدم استقرار التوليدات المستندة إلى الشخصية (PDGs) في نماذج اللغات الكبيرة عند تطبيقها على مهام الإجابة على أسئلة الاختيار المتعدد (MCQA)، وهي مجال غالبًا ما يتم تجاهله مقارنة بتفاعلات النص الحر. طور المؤلفون ثلاثة مقاييس لتقييم استقرار الأداء والنتائج وصحة الأسئلة عبر أبعاد مختلفة.
- يختلف عدم الاستقرار بشكل متسق بين عائلات النماذج، وحجم النموذج، ومجالات الأسئلة، حيث تظهر أسئلة الرياضيات والمنطق العام عدم استقرار أكبر.
- يؤدي تنسيق موجه المهمة إلى إدخال المزيد من عدم استقرار التنبؤ مقارنة بمعلمات فرعية أخرى مثل درجة الحرارة.
- يرتبط عدم الاستقرار بدقة المهمة، مما يكشف عن أن الإعدادات التجريبية المختلفة يمكن أن تؤدي إلى شخصيات أفضل وأسوأ مختلفة على الرغم من تشابهها.
تسلط النتائج الضوء على أهمية التحقق من عدم استقرار المعلمات الفرعية في التوليدات المستندة إلى الشخصية لضمان أداء موثوق.