लेखकों ने VRRL प्रस्तावित किया है, एक रिइनफोर्समेंट लर्निंग फ्रेमवर्क जो विज़न-लैंग्वेज मॉडल्स को चैन-ऑफ़-थॉट तर्क के दौरान दृश्य रूप से आधारित आत्म-प्रतिबिंब करने में सक्षम बनाने के लिए डिज़ाइन किया गया है।

  • प्रशिक्षण के दौरान VRRL यादृच्छिक रूप से ट्राजेक्टरी उपसर्गों को मस्क करता है ताकि गलत मध्यवर्ती भविष्यवाणियों से पुनर्प्राप्ति पर जोर दिया जा सके।
  • विधि एक अनुभव रीप्ले बफर से बुफर्ड रोल-इन पेश करती है ताकि मॉडल को विभिन्न विफलता अवस्थाओं के लिए उजागर किया जा सके।
  • तालिकाओं और चार्ट्स में शामिल दृश्य फाउंडेशन कार्य, साथ ही स्थानिक नेविगेशन बेंचमार्क्स पर मूल्यांकन मानक RL आधार रेखाओं की तुलना में आउट-ऑफ़-डिस्ट्रीब्यूशन सटीकता में महत्वपूर्ण सुधार दिखाता है।