Qwen-RobotManip, un modelo base de Visión-Lenguaje-Acción, permite el entrenamiento a gran escala mediante una alineación unificada entre representación, movimiento y comportamiento. Utiliza datos de código abierto para construir un corpus de preentrenamiento de 38.100 horas y demuestra generalización emergente, superando a los modelos anteriores más avanzados en configuraciones fuera de la distribución y ocupando el primer lugar en RoboChallenge con una mejora relativa del 20% en plataformas de robots reales.