Artikel ini meneliti keandalan penggunaan Model Bahasa Besar sebagai evaluator dalam konteks multibahasa dan bahasa dengan sumber daya rendah, menyoroti kesenjangan signifikan dalam praktik saat ini. Penulis menganalisis 650 makalah ACL Anthology untuk mengidentifikasi inkonsistensi dan ketergantungan berlebihan pada model judge tunggal.

  • Dari 650 makalah yang menyebutkan LLM-as-a-judge, hanya 33 yang berfokus pada pengaturan sumber daya rendah atau multibahasa.
  • Analisis mengungkapkan hasil evaluasi yang tidak konsisten dan kecenderungan untuk terlalu mempercayai penilaian LLM dalam konteks ini.
  • Terdapat ketergantungan luas pada satu model judge per studi tanpa validasi manusia yang memadai.

Penulis memberikan rekomendasi kepada komunitas NLP untuk meningkatkan validitas evaluasi LLM-as-a-Judge dalam pengaturan linguistik yang beragam.