La introducción de RoboMME-Interference aborda la necesidad de evaluar la memoria del robot en escenarios realistas de contexto largo, donde los sistemas deben recordar información de sesiones anteriores. Este nuevo benchmark entre sesiones se basa en el marco existente de RoboMME para medir el rendimiento cuando los robots enfrentan distracciones por experiencias previas no relacionadas. Para cada episodio de consulta, el benchmark construye un historial de sesión que consiste en demostraciones relevantes seguidas por un número controlado de sesiones no relacionadas proporcionadas como memoria a los modelos Vision-Language-Action. Los investigadores probaron las variantes liberadas del modelo π_0.5 aumentadas con memoria sin modificación para evaluar su robustez bajo estas condiciones. Los resultados indican que, aunque las variantes de memoria perceptual mejoran las tasas de éxito cuando no hay distractores, su precisión disminuye de manera constante y fuerte a medida que se acumulan sesiones no relacionadas. Estos hallazgos destacan una falla crítica en los sistemas actuales con respecto a la memoria de contexto largo y la resistencia a la interferencia. La página del proyecto, videos, código y datos para este benchmark están disponibles en https://robotmemorybench.com.
RoboMME-Interference evalúa la memoria del robot bajo distracción
Traducido del English → Español