Исследователи предлагают YOMI-Bench, бенчмарк, предназначенный для оценки способности больших языковых моделей читать кандзи и понимать фонологические аспекты в японском языке. Бенчмарк решает проблему сложностей с выводом правильных чтений из поверхностного текста из-за наличия нескольких возможных чтений для каждого символа.
- YOMI-Bench состоит из четырех задач, специально разработанных для оценки производительности чтения кандзи.
- Оценка проводилась для одной многоязычной открытой LLM, четырех открытых LLM, специфичных для японского языка, и пяти коммерческих LLM.
- Результаты показывают, что даже модели, специфичные для японского языка, демонстрируют низкую производительность в чтении кандзи.
- Коммерческие модели также плохо справляются с задачами генерации, требующими учета чтений кандзи.
Исследование подчеркивает, что современные LLM испытывают трудности с лингвистическими особенностями японского кандзи, что указывает на необходимость улучшения фонологического понимания.