Qwen-RobotManip, фундаментальная модель на основе визуального-языкового-действия, позволяет проводить масштабную обучение за счет единого синхронизации в представлении, движении и поведении. Модель использует открытые данные для создания корпуса предобучения из 38 100 часов и демонстрирует возникающее обобщение, превосходя предыдущие передовые модели в условиях распределения за пределами распределения и занимает первое место в RoboChallenge с относительным улучшением на 20% на реальных роботах.
Qwen-RobotManip достигает обобщения в роботизированной манипуляции
Переведено с English → Русский