AgenticSTS : Un banc d'essai à mémoire bornée pour les agents LLM à long terme

Les auteurs présentent AgenticSTS, un banc d'essai conçu pour étudier comment les couches de mémoire explicite façonnent les décisions des agents LLM à long terme. Il utilise un contrat à mémoire bornée dans le jeu Slay the Spire 2 où les invites sont assemblées par récupération typée plutôt que par ajout de transcriptions brutes.

Le système utilise une ablation A0 fixe montrant que l'activation des compétences stratégiques a augmenté les victoires de 3/10 à 6/10 parties.
Les benchmarks publics rapportent zéro victoire pour les LLM de pointe à la difficulté la plus basse, tandis que les taux de victoire humains sont de 16%.
Un benchmark en ligne public des LLM de pointe sur Slay the Spire 2 rapporte zéro victoire sur cinq configurations.
La publication inclut 298 trajectoires complètes avec des balises de condition, des instantanés figés de la mémoire/compétence et des scripts d'analyse.

Ce travail fournit une méthodologie validée et réutilisable pour isoler les effets de composants mémoire spécifiques dans la conception d'agents.