arxiv arXiv cs.AI · hace 1 h · fuente: hace 9 d · research

Desacoplar el conocimiento declarativo y procedimental en modelos de visión-lenguaje-acción

Traducido del English → Español

w$^{2}$VLA introduce un modelo modular de visión-lenguaje-acción que desacopla el conocimiento declarativo y procedimental. Al reestructurar el flujo de información, permite una clonación de comportamiento robusta y la transferencia de habilidades zero-shot a objetos nuevos y disímiles.

Importancia 2/3 Nueva función frente a los líderes arXiv cs.AI AI agents Multimodal Reasoning models

Leer original