Tencent-Hunyuan, 가이드드 엔드투엔드 이미지 합성을 위한 GEAR 출시

Tencent-Hunyuan은 벡터 양자화 토크나이저와 자기회귀 생성기를 공동 훈련하여 이미지 합성을 개선하는 방법인 GEAR(Guided End-to-End AutoRegression)를 소개했습니다. 전통적인 2단계 접근 방식과 달리 GEAR는 표현 정렬을 사용하여 AR 모델이 훈련 중에 토크나이저를 가이드할 수 있도록 합니다.

이 방법은 코드북 할당의 듀얼 리드아웃을 사용하여 그래디언트 흐름 문제를 해결하며, 하드 다음 토큰 예측과 정렬을 위한 미분 가능한 소프트 브랜치를 결합합니다.
이 접근 방식은 정렬 부담을 AR 모델로 이동시켜 그 특징을 DINOv2와 유사하게 만드는 반면, 토크나이저는 덜 유사하게 만듭니다.
GEAR는 LlamaGen-REPA 베이스라인과 비교하여 ImageNet gFID 수렴을 최대 10배 빠르게 달성하며 더 나은 패치 수준의 특징을 학습합니다.
이 기법은 VQVAE, LFQ 및 IBQ 양자화기 전반에 일반화 가능하며 텍스트-이미지 생성을 지원합니다.

저자들은 이것이 생성기가 토크나이저의 표현에 직접 영향을 미칠 수 있게 함으로써 더 빠른 훈련 수렴과 더 나은 특징 학습을 가능하게 하기 때문에 이를 중요하게 생각합니다.