arxiv arXiv cs.AI · hace 1 h · fuente: hace 10 d · research

Reutilización de un clasificador de voz para generación basada en difusión

Traducido del English → Español

Un clasificador de voz preentrenado se reutiliza como columna vertebral para la generación de voz guiada por difusión. Al adjuntar una subred ligera y entrenarla bajo emparejamiento de puntuaciones de denoising, el enfoque logra alta calidad de voz con menor costo de memoria y computacional, utilizando un único modelo en lugar de dos componentes entrenados por separado.

Importancia 2/3 Nuevo entorno de evaluación con diferenciadores arXiv cs.AI OpenAI Google DeepMind Mistral AI Image generation Training methods Voice & audio

Leer original