Tencent-Hunyuan ha presentado GEAR (Guided End-to-End AutoRegression), un método que entrena conjuntamente un tokenizador vector-cuantizado y un generador autorregresivo para mejorar la síntesis de imágenes. A diferencia de los enfoques tradicionales en dos etapas, GEAR utiliza alineación de representaciones para permitir que el modelo AR guíe al tokenizador durante el entrenamiento.

  • El método resuelve problemas de flujo de gradiente mediante una doble lectura de las asignaciones del códigobook, combinando la predicción dura del siguiente token con una rama suave diferenciable para la alineación.
  • Este enfoque traslada la carga de alineación al modelo AR, haciendo que sus características sean más similares a DINOv2 mientras el tokenizador se vuelve menos así.
  • GEAR logra hasta 10 veces una convergión más rápida de ImageNet gFID en comparación con la línea base LlamaGen-REPA y aprende mejores características a nivel de parches.
  • La técnica es generalizable a cuantizadores VQVAE, LFQ e IBQ y soporta generación de imagen a partir de texto.

Los autores consideran esto importante porque permite una convergencia de entrenamiento más rápida y un mejor aprendizaje de características al permitir que el generador influya directamente en la representación del tokenizador.