Оценка больших языковых моделей для преобразования графем в звуки на японском языке

Исследование оценивает более 30 больших языковых моделей по преобразованию графем в звуки на японском языке с использованием 3000 ручно аннотированных предложений. Наиболее эффективные языковые модели достигают ошибки в канде-символах ниже 0,52%, превосходя лучшую традиционную систему (1,03%). Режим разбора, с применением правил послеобработки, показывает лучшие результаты по сравнению с прямым режимом для большинства моделей, и канды, предсказанные языковой моделью, улучшают произношение в речевых системах при вводе в TTS на основе канды.