OscillaTTS: Sesgo inductivo oscilatorio adaptativo para modelar dinámicas prosódicas agudas en TTS basado en difusión

Los modelos de texto a voz (TTS) basados en difusión han mejorado la calidad del habla, pero tienen dificultades con transiciones prosódicas agudas y variaciones rápidas del tono. Los decodificadores existentes suelen utilizar no linealidades periódicas como la función de activación Snake, que carecen de adaptabilidad para cambios abruptos de amplitud y frecuencia. Para abordar esto, los autores presentan OscillaTTS, un sistema que cuenta con una no linealidad oscilatoria adaptativa. Este componente permite una modulación periódica controlada mientras garantiza la estabilidad de la señal mediante un mecanismo de derivación lineal. El estudio investiga el papel del sesgo inductivo oscilatorio dentro de los decodificadores de TTS basados en difusión. Los experimentos realizados en los conjuntos de datos LJSpeech y Emotional Speech Dataset demuestran mejoras consistentes tanto en evaluaciones objetivas como subjetivas. Estos resultados indican que OscillaTTS modela eficazmente las dinámicas prosódicas expresivas en comparación con métodos anteriores.