Un nuevo método adapta DAAM a modelos de difusión de voz, analizando cómo los subtítulos de estilo influyen en las formas de onda TTS. Revela que los tokens de estilo tienen menor varianza temporal que los tokens de contenido, con la atención de estilo correlacionada al tono y la energía, y el condicionamiento máximo de estilo en capas tempranas donde la entropía de atención se minimiza, indicando máxima selectividad.
Atribución de atención cruzada para texto-a-voz con estilo
Traducido del English → Español