يقترح الباحثون StochasT، وهي طريقة لمعالجة الفجوة بين التدريب متعدد الجولات والتقييم ذو الجولة الواحدة في نماذج الرؤية واللغة الكبيرة (LVLMs). تجمع هذه الطريقة مهام اللغة الخاصة بنفس الصورة بشكل عشوائي في مجموعات بأحجام مختلفة مع الحفاظ على ترتيبها العضوي.

  • يتجنب StochasT إسقاط البيانات باستخدام التجميع العشوائي المشابه لـ Dropout وعمق عشوائي.
  • آلية تقييم غير مرتبطة بمعايير محددة تعتمد على المربع اللاتيني المتوازن تقيس القوة تحت تبعيات سياقية متغيرة.
  • تظهر التجارب أن الطريقة تمنح LVLMs قدرات قوية لكل من حالات الاستخدام ذات الجولة الواحدة ومتعددة الجولات.

تساعد هذه الطريقة في سد الفجوة بين ظروف التدريب والسيناريوهات الاختبارية، مما يسمح للنماذج بتحقيق كامل إمكاناتها رغم تدهور الانتباه البصري والإفراط في التخصيص السياقي.