YOMI-Bench: бенчмарк для оценки способности моделей LLM читать кандзи и понимать фонологию в японском языке

Исследователи предлагают YOMI-Bench, бенчмарк, предназначенный для оценки способности больших языковых моделей читать кандзи и понимать фонологические аспекты в японском языке. Бенчмарк решает проблему сложностей с выводом правильных чтений из поверхностного текста из-за наличия нескольких возможных чтений для каждого символа.

YOMI-Bench состоит из четырех задач, специально разработанных для оценки производительности чтения кандзи.
Оценка проводилась для одной многоязычной открытой LLM, четырех открытых LLM, специфичных для японского языка, и пяти коммерческих LLM.
Результаты показывают, что даже модели, специфичные для японского языка, демонстрируют низкую производительность в чтении кандзи.
Коммерческие модели также плохо справляются с задачами генерации, требующими учета чтений кандзи.

Исследование подчеркивает, что современные LLM испытывают трудности с лингвистическими особенностями японского кандзи, что указывает на необходимость улучшения фонологического понимания.