arxiv arXiv cs.LG · hace 1 h · fuente: hace 10 d · research

Reutilización de un clasificador de voz para generación basada en difusión

Traducido del English → Español

Un clasificador de voz preentrenado se reutiliza como columna vertebral para la generación de voz guiada por difusión. Al adjuntar una subred ligera y entrenarla bajo emparejamiento de puntuaciones de desvanecimiento, el enfoque logra alta calidad de voz con menor consumo de memoria y costo computacional, utilizando un único modelo en lugar de dos componentes entrenados por separado.

Importancia 2/3 Nuevo entorno de evaluación con diferenciadores arXiv cs.LG Hugging Face Google DeepMind NVIDIA Image generation Training methods Voice & audio

Leer original