Авторы предлагают классификаторную систему для проверки многоязычных систем преобразования текста в речь (TTS) на соответствие специфичным для языка фонетическим паттернам, используя человеческую речь в качестве эталона. Этот подход решает ограничение стандартных метрик, таких как MOS, которые не способны тестировать сохранение звуковых контрастов, необходимых для различения слов.

  • Система была протестирована на ассамском языке с продвинутым корневым гласным гармонией (ATR) с использованием модели TTS MMS от Meta.
  • Классификатор, обученный на человеческой речи, успешно перенесся на синтезированную речь с минимальной потерей качества.

Проверка выявила, что [+ATR] средние гласные реализовывались как [-ATR] в одной трети токенов, чего не наблюдалось в человеческой речи.

  • На уровне слов предсказанные метки ATR классифицировали гармонию точнее, чем транскрипционные метки, что подчеркивает разрыв между предполагаемой и произнесенной фонетикой.

Система предоставляет специфичные для задачи диагностики качества TTS и обобщается на другие фонетические контрасты, имеющие измеримые акустические признаки.