Los investigadores presentan DMV-Bench, el primer benchmark interactivo diseñado para evaluar la memoria visual en agentes multimodales dentro de entornos controlados. El estudio propone DualMem, una arquitectura de memoria visual y verbal paralela que supera significativamente a los sistemas existentes en esta nueva herramienta de diagnóstico.

  • DMV-Bench utiliza un catálogo de comercio electrónico de amueblamiento para el hogar con 1,000 variantes de productos donde las señales discriminativas se restringen a píxeles mediante un contrato de filtración de texto.
  • Los agentes navegan cadenas de compras autónomas y deben recordar productos específicos basándose en pistas incidentales únicas incrustadas en las imágenes visitadas.
  • DualMem mantiene códigos visuales y verbales paralelos, con la visión transmitiendo la pista de extremo a extremo mientras el canal verbal asiste en la fundamentación de la consulta.
  • La arquitectura supera las líneas base de subtítulos y tres sistemas recientes de memoria para agentes multimodales en longitudes de cadena de 5, 10, 15 y 50 pasos.
  • Las ganancias de rendimiento se verificaron en los modelos Gemini 2.5 Flash y Qwen2.5-VL-7B, controlando el tamaño del banco de memoria y el sesgo de posición de codificación.

Los hallazgos demuestran que un régimen de codificación dual asimétrico mejora efectivamente la recuperación visual de largo horizonte en tareas de agentes interactivos.