研究者らは、日本語における大規模言語モデルの漢字読解および音韻理解能力を評価するために設計されたベンチマークであるYOMI-Benchを提案する。このベンチマークは、1文字あたりに複数の読み方が存在するため、表面レベルのテキストから正しい読み方を推測するのが困難であるという課題に対処している。
- YOMI-Benchは、漢字読解性能を評価するために特別に設計された4つのタスクで構成されている。
- 評価では、1つのマルチリンガルオープンLLM、4つの日本語特化型オープンLLM、および5つの商用LLMが評価された。
- 結果は、日本語特化型モデルでさえ漢字読解において低いパフォーマンスを示すことを示している。
- 商用モデルも、漢字の読み方を考慮する必要がある生成タスクで著しく低いパフォーマンスを示した。
本研究は、現在のLLMが日本語の漢字の言語的特徴に苦戦していることを浮き彫りにし、音韻理解の改善が必要であることを示唆している。