Robotics — korshunov.ai — новости ML

Robotics

Интерпретация временных деревьев поведения с помощью Reward-Petri-Net

В этой статье предложена интерпретация временных деревьев поведения с помощью Reward-Petri-Net для обучения с вознаграждением. В статье временные деревья поведения переводятся в сети Петри, присваиваются вознаграждения на основе структурных ограничений, определённых в линейной временной логике, что позволяет эффективно обучать в сложных задачах с длинными горизонтами, где обычное обучение с вознаграждением не справляется.

arxiv arXiv cs.CL · 2 д назад

Классификация концептуальной синхронизации в диалогах человека-робота

В статье предлагается классификация, ориентированная на дизайн, для концептуальной синхронизации в диалогах человека-робота, которая определяется как двусторонний, совместно-конструируемый процесс. Вводится схема диалоговых действий для описания взаимодействующих движений, обеспечивающих синхронизацию, предлагая структурированную рамку для анализа и проектирования таких взаимодействий.

lab NVIDIA Technical Blog · 3 д назад

NVIDIA представляет Halos для робототехники: полносистемный функциональный системный подход

NVIDIA представил Halos для робототехники, полносистемный функциональный системный подход, предназначенный для физической ИИ. Он обеспечивает безопасность на основе ИИ в неструктурированных средах, где роботы работают автономно вместе с людьми в производственных помещениях, складах, больницах и домах.

arxiv arXiv cs.AI · 6 д назад

Частотно-осознанное совпадение потоков для генерации действий робота

Частотно-осознанное совпадение потоков (FAFM) обеспечивает непрерывную и временно согласованную генерацию действий робота за счет преобразования дискретных последовательностей действий в частотную область с помощью дискретного косинусного преобразования. Оно регулирует первые временные производные с помощью ограничения типа Соболева для обеспечения плавных действий, повышая вероятность успеха, плавность движений и устойчивость при выполнении синтетических и реальных задач без добавления параметров в сеть.

arxiv arXiv cs.AI · 6 д назад

FlowMaps Модели длительных многомодальных динамик объектов

FlowMaps — это модель скрытого потока, которая предсказывает будущие положения объектов в 3D средах, изучая пространственно-временные паттерны из взаимодействий человека. Оно превосходит самые передовые методы в динамическом навигационном движении объектов более чем на 600 эпизодах как в симулированных, так и в реальных условиях.

arxiv arXiv cs.AI · 6 д назад

Настраивание моделей VLA требует меньше слоев, чем думалось

Модели вид-язык-действие демонстрируют серьезную слоевую редуndancy, несмотря на большое количество параметров. Метод сжатия без обучения, использующий центрированное ядерное выравнивание, удаляет парные слои, снижая глубину модели до 50% и позволяя ускорить обучение на 40-50% и инференс на до 30% без потери производительности, что подтверждено на симуляционных и реальных роботизированных задачах.

arxiv arXiv cs.AI · 7 д назад

Операционно-валидированная система визуального цикла для автономности морских дронов

Глубокий монокулярный оценщик ориентации обрабатывает сгенерированные морские среды в реальном времени, объединяя данные ИМУ через задержанный фильтр Калмана. Система позволяет осуществлять автономное полеты в помещении с задержкой восприятия и ограничениями вычислительной мощности, обеспечивая безопасную валидацию автономности морских дронов до их установки на кораблях.

arxiv arXiv cs.AI · 7 д назад

Робот использует опыт предыдущей команды для улучшения успеха спасательных операций в условиях городской разведки

Робот, инициализированный с выбранным предыдущим паттерном совместной работы, повысил успех спасательных операций в условиях городской разведки с 25,7% до 41,3%. Это улучшение сократило среднее время выполнения задачи на 283 секунды, при этом наибольшую пользу наблюдали на начальном этапе взаимодействия, что указывает на эффективную передачу раннего знания о задаче через эпизодическую память.

arxiv arXiv cs.LG · 8 д назад

Обратное обучение Q: Новый алгоритм офф-полицейского обучения

Обратное обучение Q (RQL) — это новый алгоритм офф-полицейского обучения, который обучает политику потока с использованием предварительных данных. Моделируя шаги уточнения потока как действия в расширенном процессе марковской решений и применяя виртуальные офф-полицейские траектории через обратное преобразование, RQL обеспечивает эффективное обучение без обратного распространения во времени. Эксперименты по 50 роботизированным задачам показывают, что RQL достигает наилучшей средней производительности среди современных методов офф-полицейского обучения на основе потока.

arxiv arXiv cs.LG · 8 д назад

Qwen-RobotManip достигает обобщения в роботизированной манипуляции

Qwen-RobotManip, фундаментальная модель на основе визуального-языкового-действия, позволяет проводить масштабную обучение за счет единого синхронизации в представлении, движении и поведении. Модель использует открытые данные для создания корпуса предобучения из 38 100 часов и демонстрирует возникающее обобщение, превосходя предыдущие передовые модели в условиях распределения за пределами распределения и занимает первое место в RoboChallenge с относительным улучшением на 20% на реальных роботах.

arxiv arXiv cs.AI · 8 д назад

EAGG: Генерация захвата с учетом корпуса через геометрически осознанные графы условий

EAGG представляет генератор захвата, который выравнивает структуру корпуса в общем модели с использованием топологически осознанных графов и геометрически осознанных токенов. Он достигает среднего успеха захвата в 56,17% на MultiGripperGrasp, что соответствует специализированным моделям с погрешностью в 1,10 процентных пунктах, и снижает медианное расстояние контакта с 0,239 см до 0,189 см.

arxiv arXiv cs.AI · 8 д назад

Визуальная проверка обеспечивает управление на этапе инференса и автономное улучшение политики

VERITAS представляет генератор-проверяющий фреймворк, который позволяет роботам улучшать политики в реальном времени без дополнительной тренировки. Визуальный проверяющий оценивает действия на этапе инференса, что позволяет достигать стабильных улучшений за счёт проверенных роллов, которые служат эффективным надзором для улучшения политики в оффлайне. После тренировки с использованием таких проверенных роллов достигается эффективность, сравнимая с показателями экспертов, без вмешательства человека.

media r/LocalLLaMA · 9 д назад

Объявлен набор роботизированных инструментов Qwen

Aliyun представил набор роботизированных инструментов Qwen — новую совокупность инструментов на основе искусственного интеллекта. Набор направлен на то, чтобы позволить разработчикам создавать и внедрять интеллектуальных роботов с расширенными возможностями.

arxiv arXiv cs.LG · 9 д назад

Метод резидуального обучения с использованием направляющего контроля ошибки для балансировки пяти шаров на реальных роботах

Метод резидуального обучения с использованием направляющего контроля ошибки обеспечивает стабильную балансировку пяти шаров на реальных роботах, достигая стабильности с второго попытки. Система превосходит временные рамки практики человека и зависит одновременно от направляющей обратной связи и информативного предварительного знания, при этом фиксированное обновление Ньютона с постоянной Якобианом оказывается наиболее надежным.

arxiv arXiv cs.LG · 9 д назад

ROVE: обучение с помощью вмешательств человека для манипуляции робота-человека

ROVE позволяет моделям визуально-языкового-действующего типа для робота-человека эффективно обучаться манипуляционным поведением с использованием несовершенных вмешательств человека. Оно объединяет систему сбора данных с участием человека с оптимистичной оценкой ценности и перекрестным контролем тела для приоритизации высокочастотных действий и улучшения устойчивости. ROVE превосходит базовые методы на реальных задачах манипуляции с контактом благодаря итерационным циклам развертывания и вмешательства.

arxiv arXiv cs.LG · 9 д назад

Геометрическая модель действий для обучения политик роботов

Геометрическая модель действий (GAM) позволяет политикам роботов мыслить о трехмерных физических взаимодействиях, перепрограммируя предобученную геометрическую основную модель. GAM разделяет GFM на наблюдательный кодировщик и предиктор причинно-следственных будущих состояний, затем направляет предсказанные будущие геометрические формы и действия через один и тот же основной слой, обеспечивая точные, устойчивые и эффективные результаты в манипуляции в симуляции и на реальных роботах.