يقدم المؤلفون AgenticSTS، وهي منصة اختبار مصممة لدراسة كيفية تشكيل طبقات الذاكرة الصريحة لقرارات وكلاء LLM طويلي الأفق. تستخدم العقد ذاكرة محدودة في لعبة Slay the Spire 2 حيث يتم تجميع المطالبات عبر الاسترجاع المصنّف بدلاً من إرفاق النصوص الخام.

  • يستخدم النظام إزالة A0 الثابتة مما يظهر أن تمكين المهارات الاستراتيجية زاد الانتصارات من 3/10 إلى 6/10 لعبة.
  • تبلغ التقارير عن الصفر انتصارات لوكلاء LLM المتقدمة في أدنى صعوبة، بينما معدل انتصارات البشر هو 16%.
  • يبلغ المنصة عبر الإنترنت العامة لوكلاء LLM المتقدمة على Slay the Spire 2 عن صفر انتصارات عبر خمس تكوينات.
  • يتضمن الإصدار 298 مسارًا مكتملاً مع علامات شرطية ولقطات ذاكرة/مهارة مجمدة وscripts تحليل.

توفر هذه العمل منهجية مُثبتة وقابلة لإعادة الاستخدام لعزل تأثير مكونات الذاكرة المحددة في تصميم الوكلاء.