बहुभाषी सेटिंग्स में LLMs-एज-जज के लिए चुनौतियाँ और सिफारिशें

यह लेख बहुभाषी और कम संसाधन वाली भाषाओं के संदर्भों में मूल्यांकक के रूप में बड़े भाषा मॉडलों का उपयोग करने की विश्वसनीयता का परीक्षण करता है, वर्तमान अभ्यासों में महत्वपूर्ण अंतराल को उजागर करते हुए। लेखकों ने असंगतियों और एकल जज मॉडलों पर अत्यधिक निर्भरता की पहचान करने के लिए 650 ACL Anthology पेपर का विश्लेषण किया है।

LLM-as-a-judge का उल्लेख करने वाले 650 पेपरों में से, केवल 33 कम संसाधन या बहुभाषी सेटिंग्स पर केंद्रित हैं।
विश्लेषण से मूल्यांकन परिणामों में असंगति और इन संदर्भों में LLM निर्णयों पर अत्यधिक भरोसे की प्रवृत्ति सामने आती है।
पर्याप्त मानवीय सत्यापन के बिना प्रत्येक अध्ययन में एकल जज मॉडल पर व्यापक रूप से निर्भरता देखी जाती है।

लेखकों ने विविध भाषाई सेटिंग्स में LLM-as-a-Judge मूल्यांकनों की वैधता को बेहतर बनाने के लिए NLP समुदाय के लिए सिफारिशें प्रदान की हैं।