Un nuevo tokenizador de longitud variable utiliza fusión global aprendible para permitir la alineación de representaciones entre longitudes en modelos de difusión. Este enfoque independiente de los datos supera la semántica dependiente de la posición y mejora el equilibrio entre calidad y costo computacional en la generación de ImageNet 256×256 en comparación con métodos anteriores.