Para penulis memperkenalkan AgenticSTS, sebuah testbed yang dirancang untuk mempelajari bagaimana lapisan memori eksplisit membentuk keputusan agen LLM horison panjang. Ini memanfaatkan kontrak memori terbatas dalam game Slay the Spire 2 di mana prompt dirakit melalui pengambilan berbasis tipe daripada menambahkan transkrip mentah.

  • Sistem menggunakan ablation A0 tetap yang menunjukkan bahwa mengaktifkan keterampilan strategis meningkatkan kemenangan dari 3/10 menjadi 6/10 permainan.
  • Benchmark publik melaporkan nol kemenangan untuk LLM mutakhir pada kesulitan terendah, sementara tingkat kemenangan manusia adalah 16%.
  • Benchmark online publik LLM mutakhir di Slay the Spire 2 melaporkan nol kemenangan di lima konfigurasi.
  • Rilis ini mencakup 298 trajektori lengkap dengan tag kondisi, snapshot memori/keterampilan beku, dan skrip analisis.

Karya ini menyediakan metodologi yang tervalidasi dan dapat digunakan kembali untuk mengisolasi efek komponen memori tertentu dalam desain agen.