लेख वास्तविक डिप्लॉयमेंट क्षमताओं (जैसे व्यक्तिगतकरण और रीकॉल) के सापेक्ष टेस्ट-टाइम ट्रेनिंग (TTT) मेमोरी दावों को कैलिब्रेट करने के लिए एक व्यवहारिक मूल्यांकन ढांचा पेश करता है। यह तर्क देता है कि प्लेक्सिटी जैसे मानक प्रॉक्सी मेट्रिक्स इन उन्नत व्यवहारों के लिए अपर्याप्त सबूत हैं, जिनके लिए सीधे व्यवहारिक सत्यापन की आवश्यकता होती है।

  • इस ढांचे में एक दाव-कैलिब्रेटेड सबूत सीढ़ी शामिल है जो स्ट्रीम एडाप्टेशन और डिप्लॉयमेंट-टाइम व्यवहारिक लर्निंग के बीच अंतर करती है।
  • इसमें स्पष्ट-मेमोरी बेलाइन्स और पारस्परिक रूप से अपवर्जित विफलता श्रेणियों के साथ एक मूल्यांकन प्रोटोकॉल का उपयोग किया जाता है।
  • Qwen3 मॉडल्स पर नियंत्रित डायग्नोस्टिक्स के माध्यम से सत्यापन दिखाता है कि जबकि वन-स्टेप LoRA अपडेट समर्थन और उत्तर लॉस को कम करते हैं, फ्री-फॉर्म रीकॉल शून्य बना हुआ है।

यह दृष्टिकोण लेखकों और मूल्यांकनकर्ताओं को TTT मेमोरी दावों को वास्तव में रिपोर्ट किए गए सबूत के साथ संरेखित करने के लिए एक ठोस मानक प्रदान करता है।