Tencent-Hunyuan 推出了 GEAR(Guided End-to-End AutoRegression),该方法联合训练向量量化标记器和自回归生成器,以改进图像合成。与传统两阶段方法不同,GEAR 使用表示对齐,使 AR 模型能够在训练期间指导标记器。

  • 该方法通过使用码本分配的双读取来解决梯度流问题,将硬下一个词元预测与用于对齐的可微软分支相结合。
  • 这种方法将对齐负担转移到 AR 模型上,使其特征更像 DINOv2,而标记器则变得不那么像。
  • 与 LlamaGen-REPA 基线相比,GEAR 实现了高达 10 倍的 ImageNet gFID 收敛加速,并学习了更好的补丁级特征。
  • 该技术可推广至 VQVAE、LFQ 和 IBQ 量化器,并支持文生图生成。

作者认为这很重要,因为它允许生成器直接影响标记器的表示,从而实现更快的训练收敛和更好的特征学习。