MemDelta: Líneas base controladas y confusores ocultos en la evaluación de memoria de agentes
El artículo presenta MemDelta, un protocolo de evaluación controlada para sistemas de memoria de agentes que aísla componentes individuales para evitar que variables confusas distorsionen los resultados. Utilizando el conjunto de datos LongMemEval-S con 500 preguntas a través de tres familias de modelos, el estudio revela que las ganancias reportadas a menudo mezclan cambios en métodos de memoria con variaciones en modelos de lenguaje o pipelines de recuperación.