यह अध्ययन बहुविकल्पीय प्रश्न उत्तर (MCQA) कार्यों पर लागू होने पर बड़े भाषा मॉडलों में पर्सना-ड्राइवन जनरेशन (PDGs) की अस्थिरता का जांच करता है, जो स्वतंत्र पाठ इंटरैक्शन की तुलना में अक्सर नजरअंदाज किए जाने वाले डोमेन हैं। लेखकों ने विभिन्न आयामों पर प्रदर्शन, परिणाम और प्रश्न सटीकता स्थिरता का मूल्यांकन करने के लिए तीन मापदंड विकसित किए।
- अस्थिरता मॉडल परिवारों, मॉडल आकार और प्रश्न डोमेन के बीच लगातार भिन्न होती है, जिसमें गणित और सामान्य ज्ञान प्रश्नों में अधिक अस्थिरता दिखाई देती है।
- कार्य प्रॉम्प्ट फॉर्मेट अन्य हाइपरपैरामीटर जैसे तापमान की तुलना में अधिक पूर्वानुमान अस्थिरता पेश करता है।
- अस्थिरता कार्य सटीकता से संबंधित है, जो यह दर्शाता है कि समानता के बावजूद विभिन्न प्रायोगिक सेटिंग्स अलग-अलग सर्वोत्तम और सबसे खराब पर्सना का परिणाम दे सकती हैं।
निष्कर्ष पर्सना-ड्राइवन जनरेशन में हाइपरपैरामीटर अस्थिरता की जांच करने के महत्व को उजागर करते हैं ताकि विश्वसनीय प्रदर्शन सुनिश्चित किया जा सके।