تفحص هذه المقالة موثوقية استخدام النماذج اللغوية الكبيرة كمقيّمين في سياقات متعددة اللغات ولغات ذات موارد محدودة، مسلطة الضوء على فجوات كبيرة في الممارسات الحالية. حلّل المؤلفون 650 ورقة من مجموعة ACL Anthology لتحديد التناقضات والاعتماد المفرط على نماذج حكم فردية.

  • من بين 650 ورقة تذكر LLM-as-a-judge، تركز فقط 33 على سياقات الموارد المحدودة أو متعددة اللغات.
  • تكشف التحليلات عن نتائج تقييم غير متسقة وميلًا إلى الثقة الزائدة في أحكام النماذج اللغوية الكبيرة في هذه السياقات.
  • هناك اعتماد واسع النطاق على نموذج حكم واحد لكل دراسة دون التحقق البشري الكافي.

يقدم المؤلفون توصيات لمجتمع معالجة اللغة الطبيعية لتحسين صلاحية تقييمات LLM-as-a-Judge في إعدادات لغوية متنوعة.