El artículo presenta MemDelta, un protocolo de evaluación controlada para sistemas de memoria de agentes que aísla componentes individuales para evitar que variables confusas distorsionen los resultados. Utilizando el conjunto de datos LongMemEval-S con 500 preguntas a través de tres familias de modelos, el estudio revela que las ganancias reportadas a menudo mezclan cambios en métodos de memoria con variaciones en modelos de lenguaje o pipelines de recuperación.

  • El rendimiento de RAG verbatim (47.2%) es estadísticamente similar al de GPT-4o-mini con contexto completo (49.8%), pero se producen inversiones de ranking entre modelos, como Gemini ganando +14pp desde contexto completo mientras que Sonnet gana +31pp desde RAG debido a tasas de rechazo.
  • Cambiar solo el modelo de incrustación en un pipeline idéntico desplaza la precisión en +6.2pp en n = 500 (p = 0.004), demostrando que una sola variable puede invertir conclusiones, como Mem0 superando a MiniLM-RAG por +11pp pero perdiendo frente a cloud-RAG por 1.2pp.
  • La auto-memoria del agente alcanza un 42% de precisión, desempeñándose peor que la recuperación básica que llega al 47%.
  • En dos tipos específicos de preguntas (n = 88), Mem0 iguala el rendimiento de cloud RAG (72.7% vs. 73.9%) con un costo 50 veces mayor, indicando ganancias estrechas en lugar de generales.

Los autores recomiendan que las evaluaciones de memoria fijen los modelos de incrustación a través de las comparaciones, estratifiquen los resultados por familia de modelos y reporten los costos del camino de escritura para atribuir con precisión las ganancias de rendimiento a cambios arquitectónicos específicos.