연구자들은 대규모 언어 모델(LLM)의 일본어 한자 읽기 및 음운론적 이해 능력을 평가하도록 설계된 벤치마크인 YOMI-Bench를 제안합니다. 이 벤치마크는 문자당 여러 가지 가능한 읽기가 존재하여 표면 텍스트에서 올바른 읽기를 추론하는 것이 어렵다는 문제를 다룹니다.
- YOMI-Bench는 한자 읽기 성능을 평가하기 위해 특별히 설계된 4개의 작업으로 구성됩니다.
- 평가에서는 하나의 다국어 오픈 LLM, 4개의 일본어 전용 오픈 LLM 및 5개의 상용 LLM이 평가되었습니다.
- 결과는 일본어 전용 모델조차 한자 읽기에서 낮은 성능을 보인다는 것을 보여줍니다.
- 상용 모델도 한자 읽기를 고려해야 하는 생성 작업에서 성능이 낮았습니다.
이 연구는 현재 LLM이 일본어 한자의 언어적 특성에 어려움을 겪고 있음을 강조하며, 음운론적 이해 개선의 필요성을 시사합니다.