MemDelta: Контролируемые базовые линии и скрытые смешивающие факторы в оценке памяти агентов
В статье представлен MemDelta — контролируемый протокол оценки для систем памяти агентов, который изолирует отдельные компоненты, чтобы предотвратить искажение результатов из-за смешивающих переменных. Используя датасет LongMemEval-S с 500 вопросами по трем семействам моделей, исследование показывает, что заявленные улучшения часто сочетают изменения в методах памяти с вариациями языковых моделей или конвейеров поиска.