Reutilización de un clasificador de voz para generación basada en difusión
Un clasificador de voz preentrenado se reutiliza como columna vertebral para la generación de voz guiada por difusión. Al adjuntar una subred ligera y entrenarla bajo emparejamiento de puntuaciones de desvanecimiento, el enfoque logra alta calidad de voz con menor consumo de memoria y costo computacional, utilizando un único modelo en lugar de dos componentes entrenados por separado.