В данной статье предлагается активная парадигма непрерывного обучения для моделей Vision-Language-Action (VLA), направленная на устранение неэффективности пассивного обучения с подражанием. Авторы демонстрируют, что сбор данных, направляемый неопределённостью, повышает эффективность дообучения, но приводит к катастрофическому забыванию при исключительно использовании данных восстановления.
- Активный сбор данных, направляемый неопределённостью, приводит к более эффективному дообучению по сравнению с пассивно собранными демонстрациями.
- Дообучение исключительно на активно собранных данных восстановления приводит к катастрофическому забыванию ранее изученных поведений.
- В исследовании оцениваются методы смешивания данных на основе реплея и эластичной консолидации весов как техники для непрерывного обучения.
- Работа устанавливает компромиссы между пластичностью к новым данным восстановления и сохранением существующих поведенческих политик.
Это исследование подчеркивает потенциал активного обучения для повышения эффективности адаптации, одновременно выявляя открытые проблемы интеграции целевых новых данных в крупные роботизированные политики.