Tencent-Hunyuan publie GEAR pour la synthèse d'images guidée de bout en bout

Tencent-Hunyuan a introduit GEAR (Guided End-to-End AutoRegression), une méthode qui entraîne conjointement un tokenizeur vectorisé et un générateur autoregressif pour améliorer la synthèse d'images. Contrairement aux approches traditionnelles en deux étapes, GEAR utilise l'alignement de représentation pour permettre au modèle AR de guider le tokenizeur pendant l'entraînement.

La méthode résout les problèmes de flux de gradient en utilisant une double lecture des affectations du codebook, combinant la prédiction dure du prochain token avec une branche douce différentiable pour l'alignement.
Cette approche déplace la charge d'alignement vers le modèle AR, rendant ses caractéristiques plus similaires à DINOv2 tandis que le tokenizeur le devient moins.
GEAR atteint une convergence gFID ImageNet jusqu'à 10x plus rapide par rapport à la base LlamaGen-REPA et apprend des caractéristiques de niveau patch meilleures.
La technique est généralisable aux quantiseurs VQVAE, LFQ et IBQ et prend en charge la génération texte-vers-image.

Les auteurs considèrent cela important car il permet une convergence d'entraînement plus rapide et un apprentissage de caractéristiques meilleur en permettant au générateur d'influencer directement la représentation du tokenizeur.