Para penulis mengusulkan kerangka berbasis klasifikator untuk mengaudit sistem teks-ke-suara (TTS) multibahasa terhadap pola fonologis spesifik bahasa, menggunakan ucapan manusia sebagai acuan. Pendekatan ini mengatasi keterbatasan metrik standar seperti MOS, yang gagal menguji pelestarian kontras bunyi yang penting untuk membedakan kata.
- Kerangka ini diuji pada harmoni vokal akar lidah depan (ATR) bahasa Assam menggunakan model TTS MMS dari Meta.
- Sebuah klasifikator yang dilatih pada ucapan manusia ditransfer ke ucapan sintetis dengan kehilangan minimal.
- Audit mengungkapkan bahwa vokal tengah [+ATR] direalisasikan sebagai [-ATR] dalam sepertiga token, sebuah bias yang tidak ada dalam ucapan manusia.
- Pada tingkat kata, label ATR yang diprediksi mengklasifikasikan harmoni lebih akurat daripada label transkripsi, menyoroti kesenjangan antara fonologi yang dimaksud dan yang dihasilkan.
Kerangka ini menyediakan diagnostik spesifik tugas untuk kualitas TTS dan dapat digeneralisasi ke kontras fonologis lain yang memiliki petunjuk akustik terukur.