Tencent-Hunyuan merilis GEAR untuk sintesis gambar end-to-end terpandu

Tencent-Hunyuan telah memperkenalkan GEAR (Guided End-to-End AutoRegression), sebuah metode yang melatih bersama tokenizer terkuantisasi vektor dan generator autoregresif untuk meningkatkan sintesis gambar. Berbeda dengan pendekatan dua tahap tradisional, GEAR menggunakan penyelarasan representasi untuk memungkinkan model AR memandu tokenizer selama pelatihan.

Metode ini menyelesaikan masalah aliran gradien dengan menggunakan pembacaan ganda penugasan codebook, menggabungkan prediksi token berikutnya yang keras dengan cabang lunak yang dapat dibedakan untuk penyelarasan.
Pendekatan ini menggeser beban penyelarasan ke model AR, membuat fiturnya lebih mirip DINOv2 sementara tokenizer menjadi kurang demikian.
GEAR mencapai konvergensi ImageNet gFID hingga 10x lebih cepat dibandingkan baseline LlamaGen-REPA dan mempelajari fitur tingkat patch yang lebih baik.
Teknik ini dapat digeneralisasi ke kuantizer VQVAE, LFQ, dan IBQ serta mendukung generasi teks-ke-gambar.

Para penulis menganggap ini penting karena memungkinkan konvergensi pelatihan yang lebih cepat dan pembelajaran fitur yang lebih baik dengan memungkinkan generator secara langsung mempengaruhi representasi tokenizer.