Este artículo propone un paradigma de aprendizaje continuo activo para modelos Visión-Lenguaje-Acción (VLA) con el fin de abordar las ineficiencias del aprendizaje por imitación pasiva. Los autores demuestran que la recolección de datos guiada por incertidumbre mejora la eficiencia del ajuste fino, pero provoca un olvido catastrófico cuando se utilizan exclusivamente los datos de recuperación.

  • La recolección activa de datos guiada por incertidumbre conduce a un ajuste fino más eficiente que las demostraciones recopiladas pasivamente.
  • El ajuste fino únicamente con datos de recuperación activamente recopilados resulta en un olvido catastrófico de comportamientos previamente aprendidos.
  • El estudio evalúa la mezcla de datos basada en replay y la consolidación elástica de pesos como técnicas para el aprendizaje continuo.
  • El trabajo establece compensaciones entre la plasticidad hacia nuevos datos de recuperación y la retención de comportamientos de política existentes.

Esta investigación destaca el potencial del aprendizaje activo para la eficiencia de adaptación, al tiempo que revela desafíos abiertos en la incorporación de nuevos datos dirigidos en políticas robóticas grandes.