w$^{2}$VLA introduce un modelo modular de visión-lenguaje-acción que desacopla el conocimiento declarativo y procedimental. Al reestructurar el flujo de información, permite una clonación de comportamiento robusta y la transferencia de habilidades zero-shot a objetos nuevos y disímiles.