Training methods
arxiv arXiv cs.LG · 9 д назад

HABC улучшает RL-настройку VLAs с разреженными результатами

Hierarchical Advantage-Weighted Behavior Cloning (HABC) улучшает онлайн-RL-настройку агентов визуально-языковых систем за счёт использования отдельных критических голов для жизнеспособности и эффективности. Оно объединяет их выходы через состояние-адаптивный воротник и применяет веса на переходе, при этом интервенция-ориентированная присвоение кредитов предотвращает утечку контроля. В реальных экспериментах с роботами HABC повышает показатели успеха до 92%, 88% и 38% на трёх бимануальных задачах, превосходя базовые значения SFT на 36%, 44% и 12%.

arxiv arXiv cs.LG · 9 д назад

Геометрическая модель действий для обучения политик роботов

Геометрическая модель действий (GAM) позволяет политикам роботов мыслить о трехмерных физических взаимодействиях, перепрограммируя предобученную геометрическую основную модель. GAM разделяет GFM на наблюдательный кодировщик и предиктор причинно-следственных будущих состояний, затем направляет предсказанные будущие геометрические формы и действия через один и тот же основной слой, обеспечивая точные, устойчивые и эффективные результаты в манипуляции в симуляции и на реальных роботах.

arxiv arXiv cs.LG · 9 д назад

Точная оценка постериорного скоора для линейных обратных задач

В статье получена точная постериорная оценка в закрытой форме для линейных гауссовых обратных задач, что позволяет эффективно осуществлять выборку постериоров с помощью дезактивации. Вводится точная постериорная оценка (EPS), цель обучения, которая сохраняет структуру предобучения и обеспечивает превосходную производительность по метрикам точности, восприятию и распределения с меньшим числом оценок дезактиватора по сравнению с градиентными методами.