RECALL: Активное пожизненное обучение для моделей Vision-Language-Action
В статье представлен RECALL — активная парадигма непрерывного обучения для моделей Vision-Language-Action (VLA), которая устраняет неэффективности пассивного обучения с подражанием. В отличие от традиционных методов, требующих отказов робота для инициирования сбора данных, данный подход использует демонстрации восстановления, направляемые неопределённостью, для проактивного выявления состояний, нуждающихся в надзоре. Авторы демонстрируют, что такой целевой сбор данных приводит к более эффективной донастройке по сравнению с пассивно собранными демонстрациями. Однако исследование показывает, что донастройка исключительно на этих активных данных восстановления вызывает катастрофическое забывание ранее изученных поведений. Для смягчения этой проблемы в работе оцениваются техники непрерывного обучения, такие как смешивание данных на основе воспроизведения и эластичная консолидация весов. Эти эксперименты подчеркивают критические компромиссы между пластичностью для новых задач и сохранением существующих возможностей в авторегрессионных VLA. В конечном итоге исследование устанавливает, что, хотя восстановление, направляемое неопределённостью, повышает эффективность адаптации, интеграция целевых новых данных в крупные роботизированные политики представляет значительные открытые проблемы.