AgenticSTS: Um banco de testes de memória limitada para agentes LLM de longo prazo

Os autores apresentam o AgenticSTS, um banco de testes projetado para estudar como camadas de memória explícitas moldam as decisões de agentes LLM de longo prazo. Ele utiliza um contrato de memória limitada no jogo Slay the Spire 2 onde os prompts são montados por recuperação tipada em vez de anexar transcrições brutas.

O sistema usa uma ablação com A0 fixo mostrando que habilitar habilidades estratégicas aumentou as vitórias de 3/10 para 6/10 jogos.
Benchmarks públicos relatam zero vitórias para LLMs de ponta na dificuldade mais baixa, enquanto as taxas de vitória humanas são de 16%.
Um benchmark online público de LLMs de ponta no Slay the Spire 2 relata zero vitórias em cinco configurações.
O lançamento inclui 298 trajetórias concluídas com tags de condição, snapshots congelados de memória/habilidade e scripts de análise.

Este trabalho fornece uma metodologia validada e reutilizável para isolar os efeitos de componentes específicos de memória no design de agentes.