Tencent-Hunyuan lança GEAR para síntese de imagens guiada e de ponta a ponta

A Tencent-Hunyuan apresentou o GEAR (Guided End-to-End AutoRegression), um método que treina conjuntamente um tokenizador vetorialmente quantizado e um gerador autorregressivo para melhorar a síntese de imagens. Diferente das abordagens tradicionais em duas etapas, o GEAR usa alinhamento de representações para permitir que o modelo AR guie o tokenizador durante o treinamento.

O método resolve problemas de fluxo de gradiente usando uma dupla leitura das atribuições do codebook, combinando a previsão dura do próximo token com um ramo suave diferenciável para alinhamento.
Essa abordagem transfere o ônus do alinhamento para o modelo AR, tornando seus recursos mais semelhantes ao DINOv2 enquanto o tokenizador se torna menos assim.
O GEAR alcança até 10x uma convergência mais rápida do ImageNet gFID em comparação com a linha de base LlamaGen-REPA e aprende recursos melhores em nível de patch.
A técnica é generalizável para quantizadores VQVAE, LFQ e IBQ e suporta geração de imagem a partir de texto.

Os autores consideram isso importante porque permite uma convergência de treinamento mais rápida e um melhor aprendizado de recursos ao permitir que o gerador influencie diretamente a representação do tokenizador.