다국어 환경에서 LLM-as-a-Judge의 과제와 권장 사항

본 기사는 다국어 및 저자원 언어 맥락에서 대규모 언어 모델을 평가자로 사용하는 신뢰성을 검토하며, 현재 관행의 중요한 격차를 강조합니다. 저자들은 650편의 ACL Anthology 논문을 분석하여 불일치와 단일 judge 모델에 대한 과도한 의존을 파악했습니다.

저자들은 다양한 언어 환경에서 LLM-as-a-Judge 평가의 타당성을 개선하기 위해 NLP 커뮤니티를 위한 권장 사항을 제시했습니다.