RoboMME-Interference: тестирование памяти роботов в условиях отвлекающих факторов

Введение RoboMME-Interference решает потребность в оценке памяти роботов в реалистичных сценариях с длинным контекстом, где системы должны вспоминать информацию из нескольких предыдущих сеансов. Этот новый кросс-сеансный бенчмарк построен на основе существующей платформы RoboMME для измерения производительности, когда роботы сталкиваются с отвлекающими факторами от нерелевантного предыдущего опыта. Для каждого эпизода запроса бенчмарк формирует историю сеанса, состоящую из релевантных демонстраций, за которыми следует контролируемое количество нерелевантных сеансов, предоставляемых в качестве памяти моделям Vision-Language-Action (VLA). Исследователи протестировали выпущенные модификации модели π_0.5 с дополненной памятью без изменений, чтобы оценить их устойчивость в этих условиях. Результаты показывают, что хотя варианты с перцептивной памятью улучшают показатели успеха при отсутствии отвлекающих факторов, их точность стабильно и сильно снижается по мере накопления нерелевантных сеансов. Эти выводы подчеркивают критический недостаток текущих систем в отношении памяти длинного контекста и устойчивости к интерференции. Страница проекта, видео, код и данные для этого бенчмарка доступны по адресу https://robotmemorybench.com.