Un clasificador de voz preentrenado se reutiliza como columna vertebral para la generación de voz guiada por difusión. Al adjuntar una subred ligera y entrenarla bajo emparejamiento de puntuaciones de desvanecimiento, el enfoque logra alta calidad de voz con menor consumo de memoria y costo computacional, utilizando un único modelo en lugar de dos componentes entrenados por separado.