Tencent-Hunyuanがガイダンス付きエンドツーエンド画像合成のためのGEARをリリース

Tencent-Hunyuanは、ベクトル量子化トークナイザーと自己回帰型ジェネレーターを共同で訓練し、画像合成を改善する手法であるGEAR（Guided End-to-End AutoRegression）を発表しました。従来の2段階アプローチとは異なり、GEARは表現アライメントを使用して、トレーニング中にARモデルがトークナイザーをガイドできるようにします。

本手法は、コードブック割り当てのデュアルリードアウトを使用することで勾配フローの問題を解決し、ハードな次トークン予測とアライメント用の微分可能なソフトブランチを組み合わせています。
このアプローチにより、アライメントの負担がARモデルにシフトし、その特徴がDINOv2に似たものになる一方で、トークナイザーはそれに遠ざかります。
GEARはLlamaGen-REPAベースラインと比較してImageNet gFID収束を最大10倍高速化し、より良いパッチレベルの特徴を学習します。
この手法はVQVAE、LFQ、IBQ量子化器に汎用可能であり、テキストから画像への生成をサポートします。

著者たちは、ジェネレーターがトークナイザーの表現に直接影響を与えることを可能にすることで、より高速なトレーニング収束とより良い特徴学習を可能にするため、これを重要と考えています。