Se presenta un modelo de texto a voz basado en flow-matching para simular el efecto Lombard, donde las personas hablan más fuerte y con mayor claridad en entornos ruidosos. El modelo permite un control continuo y desacoplado del esfuerzo vocal y la articulación, con énfasis a nivel de palabra para mejorar la claridad. Los experimentos muestran una mejor claridad acústica e inteligibilidad en condiciones ruidosas en comparación con los sistemas base.
Modelo TTS de Flow-Matching Simula el Efecto Lombard
Traducido del English → Español