В статье представлен MemDelta — контролируемый протокол оценки для систем памяти агентов, который изолирует отдельные компоненты, чтобы предотвратить искажение результатов из-за смешивающих переменных. Используя датасет LongMemEval-S с 500 вопросами по трем семействам моделей, исследование показывает, что заявленные улучшения часто сочетают изменения в методах памяти с вариациями языковых моделей или конвейеров поиска.

  • Производительность RAG с дословным извлечением (47,2%) статистически сопоставима с полным контекстом GPT-4o-mini (49,8%), но происходят перевороты в рейтингах между моделями: например, Gemini получает +14pp от полного контекста, а Sonnet — +31pp от RAG из-за разного уровня отказов.
  • Замена только модели эмбеддингов в идентичном конвейере изменяет точность на +6,2pp при n = 500 (p = 0,004), демонстрируя, что одна переменная может изменить выводы: так, Mem0 обходит MiniLM-RAG на +11pp, но проигрывает cloud-RAG на 1,2pp.
  • Собственная память агента достигает точности 42%, уступая базовому поиску, который показывает 47%.
  • На двух конкретных типах вопросов (n = 88) Mem0 сопоставима с производительностью облачного RAG (72,7% против 73,9%) при стоимости в 50 раз выше, что указывает на узкие, а не общие улучшения.

Авторы рекомендуют фиксировать модели эмбеддингов при сравнениях, стратифицировать результаты по семействам моделей и указывать стоимость записи для точного атрибутирования улучшений производительности конкретным архитектурным изменениям.