Un clasificador de voz preentrenado se reutiliza como columna vertebral para la generación de voz guiada por difusión. Al adjuntar una subred ligera y entrenarla bajo emparejamiento de puntuaciones de desvanecimiento, el enfoque logra alta calidad de voz con menor consumo de memoria y costo computacional, utilizando un único modelo en lugar de dos componentes entrenados por separado.
Reutilización de un clasificador de voz para generación basada en difusión
Traducido del English → Español