MCQA में पर्सना-ड्राइवन LLM जनरेशन विभिन्न आयामों में अस्थिर हैं

यह अध्ययन बहुविकल्पीय प्रश्न उत्तर (MCQA) कार्यों पर लागू होने पर बड़े भाषा मॉडलों में पर्सना-ड्राइवन जनरेशन (PDGs) की अस्थिरता का जांच करता है, जो स्वतंत्र पाठ इंटरैक्शन की तुलना में अक्सर नजरअंदाज किए जाने वाले डोमेन हैं। लेखकों ने विभिन्न आयामों पर प्रदर्शन, परिणाम और प्रश्न सटीकता स्थिरता का मूल्यांकन करने के लिए तीन मापदंड विकसित किए।

अस्थिरता मॉडल परिवारों, मॉडल आकार और प्रश्न डोमेन के बीच लगातार भिन्न होती है, जिसमें गणित और सामान्य ज्ञान प्रश्नों में अधिक अस्थिरता दिखाई देती है।
कार्य प्रॉम्प्ट फॉर्मेट अन्य हाइपरपैरामीटर जैसे तापमान की तुलना में अधिक पूर्वानुमान अस्थिरता पेश करता है।
अस्थिरता कार्य सटीकता से संबंधित है, जो यह दर्शाता है कि समानता के बावजूद विभिन्न प्रायोगिक सेटिंग्स अलग-अलग सर्वोत्तम और सबसे खराब पर्सना का परिणाम दे सकती हैं।

निष्कर्ष पर्सना-ड्राइवन जनरेशन में हाइपरपैरामीटर अस्थिरता की जांच करने के महत्व को उजागर करते हैं ताकि विश्वसनीय प्रदर्शन सुनिश्चित किया जा सके।