Tantangan dan Rekomendasi untuk LLM-as-a-Judge dalam Pengaturan Multibahasa
Artikel ini meneliti keandalan penggunaan Model Bahasa Besar sebagai evaluator dalam konteks multibahasa dan bahasa dengan sumber daya rendah, menyoroti kesenjangan signifikan dalam praktik saat ini. Penulis menganalisis 650 makalah ACL Anthology untuk mengidentifikasi inkonsistensi dan ketergantungan berlebihan pada model judge tunggal.