MEMPROBE — это бенчмарк, который оценивает долгосрочную память в ИИ-агентах путем восстановления скрытого состояния пользователя из памяти агента после взаимодействия. Он проверяет 5 систем памяти в 50 имитированных пользователях с каждой из 31 измерения, и показывает, что выполнение задачи высокое даже для агентов без памяти, в то время как восстановление памяти остается умеренным и снижается при использовании метода top-k. MEMPROBE обеспечивает прямую и аудитируемую оценку сохранения памяти и предлагает восстановление как ключевую цель для будущего развития агентов.