Tencent-Hunyuan выпустила GEAR для направленного сквозного синтеза изображений

Tencent-Hunyuan представила GEAR (Guided End-to-End AutoRegression) — метод, который совместно обучает векторно-квантованный токенизатор и авторегрессионный генератор для улучшения синтеза изображений. В отличие от традиционных двухэтапных подходов, GEAR использует выравнивание представлений, позволяя AR-модели направлять токенизатор во время обучения.

Метод решает проблемы потока градиентов за счёт двойного считывания назначений кодовой книги, сочетая жёсткое предсказание следующего токена с дифференцируемой мягкой ветвью для выравнивания.
Этот подход переносит нагрузку по выравниванию на AR-модель, делая её признаки более похожими на DINOv2, тогда как токенизатор становится менее похожим.
GEAR достигает до 10 раз более быстрой сходимости ImageNet gFID по сравнению с базовой моделью LlamaGen-REPA и обучает лучшие признаки на уровне патчей.
Техника обобщается на квантователи VQVAE, LFQ и IBQ и поддерживает генерацию изображений по тексту.

Авторы считают это важным, поскольку оно обеспечивает более быструю сходимость обучения и лучшее обучение признаков за счёт прямого влияния генератора на представление токенизатора.