MemDelta: Контролируемые базовые линии и скрытые смешивающие факторы в оценке памяти агентов

В статье представлен MemDelta — контролируемый протокол оценки для систем памяти агентов, который изолирует отдельные компоненты, чтобы предотвратить искажение результатов из-за смешивающих переменных. Используя датасет LongMemEval-S с 500 вопросами по трем семействам моделей, исследование показывает, что заявленные улучшения часто сочетают изменения в методах памяти с вариациями языковых моделей или конвейеров поиска.

Производительность RAG с дословным извлечением (47,2%) статистически сопоставима с полным контекстом GPT-4o-mini (49,8%), но происходят перевороты в рейтингах между моделями: например, Gemini получает +14pp от полного контекста, а Sonnet — +31pp от RAG из-за разного уровня отказов.
Замена только модели эмбеддингов в идентичном конвейере изменяет точность на +6,2pp при n = 500 (p = 0,004), демонстрируя, что одна переменная может изменить выводы: так, Mem0 обходит MiniLM-RAG на +11pp, но проигрывает cloud-RAG на 1,2pp.
Собственная память агента достигает точности 42%, уступая базовому поиску, который показывает 47%.
На двух конкретных типах вопросов (n = 88) Mem0 сопоставима с производительностью облачного RAG (72,7% против 73,9%) при стоимости в 50 раз выше, что указывает на узкие, а не общие улучшения.

Авторы рекомендуют фиксировать модели эмбеддингов при сравнениях, стратифицировать результаты по семействам моделей и указывать стоимость записи для точного атрибутирования улучшений производительности конкретным архитектурным изменениям.