w$^{2}$VLA introduce un modelo modular de visión-lenguaje-acción que desacopla el conocimiento declarativo y procedimental. Al reestructurar el flujo de información, permite una clonación de comportamiento robusta y la transferencia de habilidades zero-shot a objetos nuevos y disímiles.
Desacoplar el conocimiento declarativo y procedimental en modelos de visión-lenguaje-acción
Traducido del English → Español