Sarashina2.2-TTS: Решение проблемы полифонии кандзи в японском синтезе речи посредством масштабирования данных и целевого синтеза данных

Sarashina2.2-TTS — это система преобразования текста в речь (TTS) на основе большой языковой модели (LLM), ориентированная на японский язык, предназначенная для решения лингвистической проблемы контекстно-зависимой полифонии кандзи. Модель масштабирует обучающие данные до объема примерно 361 тыс. часов, используя сбалансированное сочетание корпусов японской и английской речи. Для специфической обработки неоднозначности чтения авторы реализовали целевой конвейер аугментации данных, охватывающий все 2136 иероглифов Joyo регулярного использования. Наряду с выпуском модели в статье представлен бенчмарк Joyo Kanji Yomi Benchmark, включающий 4378 различных чтений для этих символов. Авторы также предлагают метрику Kana-CER, которая оценивает правильность произношения путем сравнения синтезированной речи с эталонными чтениями в пространстве кана. Экспериментальные результаты показывают, что такая целевая аугментация значительно улучшает точность чтения и достигает состояния переднего края (state-of-the-art) на уровне кандзи. Система демонстрирует результаты, сопоставимые с лучшими базовыми моделями, по общему уровню произношения на уровне предложений, обеспечивая при этом наибольшее сходство голоса в сценариях zero-shot синтеза. Кроме того, кросс-лингвистические оценки подтверждают, что сбалансированный подход к обучению обеспечивает стабильное японское произношение независимо от языка используемого промпта.