StochasT स्टोकेस्टिक टर्न डेप्थ के साथ विज़ुअल इंस्ट्रक्शन ट्यूनिंग को बेहतर बनाता है

शोधकर्ताओं ने LVLMs (Large Vision-Language Models) में मल्टी-टर्न ट्रेनिंग और सिंगल-टर्न एवल्यूएशन के बीच के अंतर को दूर करने के लिए StochasT नामक एक विधि का प्रस्ताव दिया है। यह दृष्टिकोण उसी छवि के लिए भाषा कार्यों को यादृच्छिक रूप से विभिन्न आकारों के क्लस्टर में समूहित करता है, जबकि उनका प्राकृतिक क्रम बनाए रखता है।

StochasT ड्रॉपआउट और स्टोकेस्टिक डेप्थ की तरह यादृच्छिक समूहीकरण का उपयोग करके डेटा को गिराने से बचता है।
बैलेंस्ड लैटिन स्क्वायर पर आधारित एक बेंचमार्क-अग्नोस्टिक एवल्यूएशन मशीनिज़्म विभिन्न संदर्भ निर्भरताओं के तहत रोबस्टनेस को मापता है।
प्रयोगों से पता चलता है कि यह विधि LVLMs को सिंगल-टर्न और मल्टी-टर्न उपयोग दोनों के लिए शक्तिशाली क्षमताएं प्रदान करती है।

यह दृष्टिकोण ट्रेनिंग स्थितियों और टेस्ट परिदृश्यों के बीच की खाई को बंद करने में मदद करता है, जिससे मॉडल विज़ुअल एटेंशन डिके और संदर्भ ओवरफिटिंग के बावजूद अपनी पूर्ण क्षमता का उपयोग कर पाते हैं।