Evaluación de LLMs para la conversión de grafema a fonema en japonés

Un estudio evalúa más de 30 modelos de lenguaje grandes en la conversión de grafema a fonema en japonés utilizando 3000 oraciones anotadas manualmente. Los mejores LLMs logran una tasa de error de caracteres kana inferior al 0.52%, superando a la mejor herramienta convencional (1.03%). El modo de análisis, con postprocesamiento basado en reglas, funciona mejor que el modo directo para la mayoría de los modelos, y las kana predichas por LLM mejoran la pronunciación de TTS cuando se alimentan a un TTS de entrada kana.