본 기사는 다국어 및 저자원 언어 맥락에서 대규모 언어 모델을 평가자로 사용하는 신뢰성을 검토하며, 현재 관행의 중요한 격차를 강조합니다. 저자들은 650편의 ACL Anthology 논문을 분석하여 불일치와 단일 judge 모델에 대한 과도한 의존을 파악했습니다.
- LLM-as-a-judge를 언급한 650편의 논문 중 저자원 또는 다국어 설정에 초점을 맞춘 것은 단 33편뿐입니다.
- 분석 결과 평가 결과가 일관성이 없으며, 이러한 맥락에서 LLM 판단을 과도하게 신뢰하는 경향이 드러났습니다.
- 충분한 인간 검증 없이 연구마다 단일 judge 모델에 광범위하게 의존하고 있습니다.
저자들은 다양한 언어 환경에서 LLM-as-a-Judge 평가의 타당성을 개선하기 위해 NLP 커뮤니티를 위한 권장 사항을 제시했습니다.