В данной статье предлагается активная парадигма непрерывного обучения для моделей Vision-Language-Action (VLA), направленная на устранение неэффективности пассивного обучения с подражанием. Авторы демонстрируют, что сбор данных, направляемый неопределённостью, повышает эффективность дообучения, но приводит к катастрофическому забыванию при исключительно использовании данных восстановления.

  • Активный сбор данных, направляемый неопределённостью, приводит к более эффективному дообучению по сравнению с пассивно собранными демонстрациями.
  • Дообучение исключительно на активно собранных данных восстановления приводит к катастрофическому забыванию ранее изученных поведений.
  • В исследовании оцениваются методы смешивания данных на основе реплея и эластичной консолидации весов как техники для непрерывного обучения.
  • Работа устанавливает компромиссы между пластичностью к новым данным восстановления и сохранением существующих поведенческих политик.

Это исследование подчеркивает потенциал активного обучения для повышения эффективности адаптации, одновременно выявляя открытые проблемы интеграции целевых новых данных в крупные роботизированные политики.