MEMPROBE es un benchmark que evalúa la memoria a largo plazo en agentes de IA mediante la reconstrucción del estado oculto de un usuario a partir de la memoria del agente después de la interacción. Prueba 5 sistemas de memoria en 50 usuarios simulados con 31 dimensiones cada uno, encontrando que la finalización de tareas es alta incluso para agentes sin memoria, mientras que la recuperación de memoria permanece moderada y disminuye bajo la recuperación top-k. MEMPROBE permite una evaluación directa y auditable de la retención de memoria y propone la recuperación como un objetivo clave para el desarrollo futuro de agentes.
MEMPROBE: Benchmark para la recuperación de memoria a largo plazo en agentes
Traducido del English → Español