Исследователи предлагают YOMI-Bench, бенчмарк, предназначенный для оценки способности больших языковых моделей читать кандзи и понимать фонологические аспекты в японском языке. Бенчмарк решает проблему сложностей с выводом правильных чтений из поверхностного текста из-за наличия нескольких возможных чтений для каждого символа.

  • YOMI-Bench состоит из четырех задач, специально разработанных для оценки производительности чтения кандзи.
  • Оценка проводилась для одной многоязычной открытой LLM, четырех открытых LLM, специфичных для японского языка, и пяти коммерческих LLM.
  • Результаты показывают, что даже модели, специфичные для японского языка, демонстрируют низкую производительность в чтении кандзи.
  • Коммерческие модели также плохо справляются с задачами генерации, требующими учета чтений кандзи.

Исследование подчеркивает, что современные LLM испытывают трудности с лингвистическими особенностями японского кандзи, что указывает на необходимость улучшения фонологического понимания.