Авторы предлагают классификаторную систему для проверки многоязычных систем преобразования текста в речь (TTS) на соответствие специфичным для языка фонетическим паттернам, используя человеческую речь в качестве эталона. Этот подход решает ограничение стандартных метрик, таких как MOS, которые не способны тестировать сохранение звуковых контрастов, необходимых для различения слов.
- Система была протестирована на ассамском языке с продвинутым корневым гласным гармонией (ATR) с использованием модели TTS MMS от Meta.
- Классификатор, обученный на человеческой речи, успешно перенесся на синтезированную речь с минимальной потерей качества.
Проверка выявила, что [+ATR] средние гласные реализовывались как [-ATR] в одной трети токенов, чего не наблюдалось в человеческой речи.
- На уровне слов предсказанные метки ATR классифицировали гармонию точнее, чем транскрипционные метки, что подчеркивает разрыв между предполагаемой и произнесенной фонетикой.
Система предоставляет специфичные для задачи диагностики качества TTS и обобщается на другие фонетические контрасты, имеющие измеримые акустические признаки.