研究人员提出了 YOMI-Bench,这是一个旨在评估大型语言模型在日语中汉字读音和音韵理解能力的基准测试。该基准测试解决了由于每个字符有多种可能的读音而导致从表面文本推断正确读音的困难。

  • YOMI-Bench 包含四个专门设计用于评估汉字阅读表现的任务。
  • 评估涵盖了一个多语言开源 LLM、四个针对日语的开源 LLM 以及五个商业 LLM。
  • 结果表明,即使是针对日语的模型在汉字阅读方面也表现出较低的性能。
  • 商业模型在需要考量汉字读音的生成任务中也表现不佳。

该研究强调,当前的 LLM 在处理日语汉字的语言特征方面存在困难,表明需要改进音韵理解能力。