RECALL: Коллекция данных для восстановления опыта в активном непрерывном обучении моделей Vision-Language-Action

В данной статье предлагается активная парадигма непрерывного обучения для моделей Vision-Language-Action (VLA), направленная на устранение неэффективности пассивного обучения с подражанием. Авторы демонстрируют, что сбор данных, направляемый неопределённостью, повышает эффективность дообучения, но приводит к катастрофическому забыванию при исключительно использовании данных восстановления.

Активный сбор данных, направляемый неопределённостью, приводит к более эффективному дообучению по сравнению с пассивно собранными демонстрациями.
Дообучение исключительно на активно собранных данных восстановления приводит к катастрофическому забыванию ранее изученных поведений.
В исследовании оцениваются методы смешивания данных на основе реплея и эластичной консолидации весов как техники для непрерывного обучения.
Работа устанавливает компромиссы между пластичностью к новым данным восстановления и сохранением существующих поведенческих политик.

Это исследование подчеркивает потенциал активного обучения для повышения эффективности адаптации, одновременно выявляя открытые проблемы интеграции целевых новых данных в крупные роботизированные политики.