Исследователи представляют DMV-Bench, первый интерактивный бенчмарк, разработанный для оценки визуальной памяти мультимодальных агентов в контролируемых условиях. В исследовании предлагается DualMem — архитектура параллельной визуальной и вербальной памяти, которая значительно превосходит существующие системы на этом новом диагностическом инструменте.

  • DMV-Bench использует каталог товаров для электронной коммерции по продаже домашней мебели с 1000 вариантами продуктов, где дискриминативные сигналы ограничены пикселями посредством контракта о предотвращении утечки текста.
  • Агенты перемещаются по автономным цепочкам покупок и должны вспоминать конкретные продукты на основе уникальных инцидентальных подсказок, встроенных в посещенные изображения.
  • DualMem поддерживает параллельные визуальные и вербальные коды, при этом визуальный канал передает подсказку от начала до конца, а вербальный канал помогает в привязке запроса.
  • Архитектура превосходит базовые модели описания (caption baselines) и три недавние системы памяти мультимодальных агентов на длинах цепочек 5, 10, 15 и 50 шагов.
  • Прирост производительности был подтвержден на моделях Gemini 2.5 Flash и Qwen2.5-VL-7B при контроле размера банка памяти и смещения позиции кодирования.

Результаты демонстрируют, что асимметричный режим двойного кодирования эффективно улучшает визуальное вспоминание с длинным горизонтом в задачах интерактивных агентов.