लेखकों ने AgenticSTS का परिचय दिया है, जो एक टेस्टबेड है जिसे स्पष्ट मेमोरी लेयरों द्वारा लंबे-अवधि LLM-एजेंट निर्णयों को कैसे आकार दिया जाता है, इसका अध्ययन करने के लिए डिज़ाइन किया गया है। यह Slay the Spire 2 गेम में एक बाउंडेड-मेमोरी कॉन्ट्रैक्ट का उपयोग करता है जहां प्रॉम्प्ट्स टाइप्ड रीट्रीवल द्वारा इकट्ठा किए जाते हैं, न कि कच्चे ट्रांसक्रिप्ट को जोड़कर।
- सिस्टम एक फिक्स्ड-A0 एब्लेशन का उपयोग करता है जो दिखाता है कि स्ट्रैटेजिक स्किल्स को सक्षम करने से जीत 3/10 गेम से बढ़कर 6/10 गेम हो गई।
- पब्लिक बेंचमार्क्स फ्रंटियर LLMs के लिए सबसे कम कठिनाई पर शून्य जीत की रिपोर्ट करते हैं, जबकि मानव जीत दरें 16% हैं।
- Slay the Spire 2 पर फ्रंटियर LLMs का एक पब्लिक ऑनलाइन बेंचमार्क पांच कॉन्फ़िगरेशन में शून्य जीत की रिपोर्ट करता है।
- रिलीज़ में कंडीशन टैग्स, फ्रोजन मेमोरी/स्किल स्नैपशॉट्स और एनालिसिस स्क्रिप्ट्स के साथ 298 पूर्ण ट्राजेक्ट्री शामिल हैं।
यह कार्य एजेंट डिज़ाइन में विशिष्ट मेमोरी घटकों के प्रभावों को अलग करने के लिए एक वैलिडेटेड, रीयूजेबल मेथडोलॉजी प्रदान करता है।