यह लेख बहुभाषी और कम संसाधन वाली भाषाओं के संदर्भों में मूल्यांकक के रूप में बड़े भाषा मॉडलों का उपयोग करने की विश्वसनीयता का परीक्षण करता है, वर्तमान अभ्यासों में महत्वपूर्ण अंतराल को उजागर करते हुए। लेखकों ने असंगतियों और एकल जज मॉडलों पर अत्यधिक निर्भरता की पहचान करने के लिए 650 ACL Anthology पेपर का विश्लेषण किया है।

  • LLM-as-a-judge का उल्लेख करने वाले 650 पेपरों में से, केवल 33 कम संसाधन या बहुभाषी सेटिंग्स पर केंद्रित हैं।
  • विश्लेषण से मूल्यांकन परिणामों में असंगति और इन संदर्भों में LLM निर्णयों पर अत्यधिक भरोसे की प्रवृत्ति सामने आती है।
  • पर्याप्त मानवीय सत्यापन के बिना प्रत्येक अध्ययन में एकल जज मॉडल पर व्यापक रूप से निर्भरता देखी जाती है।

लेखकों ने विविध भाषाई सेटिंग्स में LLM-as-a-Judge मूल्यांकनों की वैधता को बेहतर बनाने के लिए NLP समुदाय के लिए सिफारिशें प्रदान की हैं।