Una arquitectura híbrida de transformador de difusión en dos etapas permite una edición de audio guiada por instrucciones eficiente y precisa. Utiliza alineación semántica de grueso a fino mediante atención conjunta a baja resolución, seguida de una edición refinada con atención conjunta y cruzada alternada a alta resolución. El método logra un mejor rendimiento en tareas de edición complejas con mayor eficiencia y un modelo compacto.