Desacoplar el conocimiento declarativo y procedimental en modelos de visión-lenguaje-acción
w$^{2}$VLA introduce un enfoque modular que desacopla el conocimiento declarativo y procedimental en los modelos de visión-lenguaje-acción. Al reestructurar el flujo de información, permite una clonación de comportamiento robusta y una transferencia de habilidades cero-shot sin precedentes a través de objetos no vistos y disímiles.