media r/LocalLLaMA · 1 小时前 · open_models

腾讯混元发布 GEAR，用于引导式端到端图像合成

译自 English → 中文

Tencent-Hunyuan 推出了 GEAR（Guided End-to-End AutoRegression），该方法联合训练向量量化标记器和自回归生成器，以改进图像合成。与传统两阶段方法不同，GEAR 使用表示对齐，使 AR 模型能够在训练期间指导标记器。

该方法通过使用码本分配的双读取来解决梯度流问题，将硬下一个词元预测与用于对齐的可微软分支相结合。
这种方法将对齐负担转移到 AR 模型上，使其特征更像 DINOv2，而标记器则变得不那么像。
与 LlamaGen-REPA 基线相比，GEAR 实现了高达 10 倍的 ImageNet gFID 收敛加速，并学习了更好的补丁级特征。
该技术可推广至 VQVAE、LFQ 和 IBQ 量化器，并支持文生图生成。

作者认为这很重要，因为它允许生成器直接影响标记器的表示，从而实现更快的训练收敛和更好的特征学习。

重要性 2/3 r/LocalLLaMA Tencent Image generation Research paper