أطلقت تيانتسنت-هونيوان GEAR (التنبؤ الذاتي الموجه من البداية إلى النهاية)، وهي طريقة تدرب بشكل مشترك مشفرًا متجهيًا ومولدًا ذاتيًا لتحسين تركيب الصور. على عكس النهجين التقليديين من مرحلتين، يستخدم GEAR محاذاة التمثيل للسماح لنموذج AR بتوجيه المشفر أثناء التدريب.

  • تحل الطريقة مشاكل تدفق التدرج باستخدام قراءة مزدوجة لتعيينات دفتر الأكواد، مما يجمع بين التنبؤ الصارم للرمز التالي وفرع لين قابل للاشتقاق للمحاذاة.
  • ينقل هذا النهج عبء المحاذاة إلى نموذج AR، مما يجعل ميزاته أكثر تشابهًا مع DINOv2 بينما يصبح المشفر أقل تشابهًا.
  • يحقق GEAR تقاربًا لـ ImageNet gFID أسرع بـ 10 مرات مقارنة بأساس LlamaGen-REPA ويتعلم ميزات على مستوى البقعة بشكل أفضل.
  • يمكن تعميم التقنية عبر كمّانات VQVAE وLFQ وIBQ وتدعم توليد النص إلى صورة.

يعتقد المؤلفون أن هذا مهم لأنه يتيح تقارب تدريب أسرع وتعلم ميزات أفضل من خلال السماح للمولد بالتأثير مباشرة على تمثيل المشفر.