Un clasificador de voz preentrenado se reutiliza como columna vertebral para la generación de voz guiada por difusión. Al adjuntar una subred ligera y entrenarla bajo emparejamiento de puntuaciones de denoising, el enfoque logra alta calidad de voz con menor costo de memoria y computacional, utilizando un único modelo en lugar de dos componentes entrenados por separado.
Reutilización de un clasificador de voz para generación basada en difusión
Traducido del English → Español