Sarashina2.2-TTS: Abordando la polifonía de kanji en la generación de voz japonesa mediante escalado de datos y síntesis dirigida
Sarashina2.2-TTS es un sistema de texto a voz basado en LLM centrado en japonés, diseñado para abordar el desafío lingüístico de la polifonía de kanji dependiente del contexto. El modelo escala los datos de entrenamiento a aproximadamente 361k horas, utilizando una mezcla equilibrada de corpus de voz japonesa e inglesa. Para manejar específicamente la desambiguación de lectura, los autores implementaron un pipeline de aumento de datos dirigido que cubre los 2,136 kanji de uso regular Joyo. Junto con el lanzamiento del modelo, el artículo presenta el Benchmark Joyo Kanji Yomi, que incluye 4,378 lecturas distintas para estos caracteres. Los autores también proponen Kana-CER, una métrica que evalúa la corrección de la pronunciación comparando la voz sintetizada con las lecturas de referencia en el espacio kana. Los resultados experimentales muestran que este aumento de datos dirigido mejora significativamente la precisión de lectura y alcanza un rendimiento de nivel kanji de vanguardia. El sistema iguala a las principales líneas base en la pronunciación a nivel de oración general, mientras ofrece la mayor similitud del hablante en escenarios de síntesis zero-shot. Además, las evaluaciones multilingües confirman que el enfoque de entrenamiento equilibrado garantiza una pronunciación japonesa estable independientemente del idioma del prompt utilizado.