Лаборатория · Allen AI
arxiv arXiv cs.LG · 9 д назад

ROVE: обучение с помощью вмешательств человека для манипуляции робота-человека

ROVE позволяет моделям визуально-языкового-действующего типа для робота-человека эффективно обучаться манипуляционным поведением с использованием несовершенных вмешательств человека. Оно объединяет систему сбора данных с участием человека с оптимистичной оценкой ценности и перекрестным контролем тела для приоритизации высокочастотных действий и улучшения устойчивости. ROVE превосходит базовые методы на реальных задачах манипуляции с контактом благодаря итерационным циклам развертывания и вмешательства.

arxiv arXiv cs.LG · 9 д назад

HABC улучшает RL-настройку VLAs с разреженными результатами

Hierarchical Advantage-Weighted Behavior Cloning (HABC) улучшает онлайн-RL-настройку агентов визуально-языковых систем за счёт использования отдельных критических голов для жизнеспособности и эффективности. Оно объединяет их выходы через состояние-адаптивный воротник и применяет веса на переходе, при этом интервенция-ориентированная присвоение кредитов предотвращает утечку контроля. В реальных экспериментах с роботами HABC повышает показатели успеха до 92%, 88% и 38% на трёх бимануальных задачах, превосходя базовые значения SFT на 36%, 44% и 12%.

arxiv arXiv cs.LG · 8 д назад

Изучение справедливых парето-оптимальных политик в многокритериальной робастной обучении

Статья представляет рамку для многополитической многокритериальной робастной обучении, которая обучает набор парето-оптимальных политик, обеспечивая справедливость в различных предпочтениях пользователей. В ней доказывается, что справедливые политики остаются в выпуклой области покрытия для вогнутых функций благосостояния, и предлагается три алгоритма, которые учитывают нестационарные и стохастические динамики политики. Эмпирические результаты показывают, что эти методы эффективно обучают справедливые политики, адаптируемые к различным предпочтениям пользователей.

arxiv arXiv cs.AI · 8 д назад

EAGG: Генерация захвата с учетом корпуса через геометрически осознанные графы условий

EAGG представляет генератор захвата, который выравнивает структуру корпуса в общем модели с использованием топологически осознанных графов и геометрически осознанных токенов. Он достигает среднего успеха захвата в 56,17% на MultiGripperGrasp, что соответствует специализированным моделям с погрешностью в 1,10 процентных пунктах, и снижает медианное расстояние контакта с 0,239 см до 0,189 см.

arxiv arXiv cs.AI · 8 д назад

Изучение справедливых парето-оптимальных политик в многокритериальной робастной обучении

Статья представляет рамку для многополитической многокритериальной робастной обучения, которая обучает набор парето-оптимальных политик, обеспечивающих справедливость в различных предпочтениях пользователей. В ней доказывается, что справедливые политики остаются в выпуклой области покрытия для вогнутых функций благосостояния, таких как GGF, и предлагаются три алгоритма, которые включают нестационарные и стохастические политики для адаптации к историческим несправедливостям. Эмпирические результаты показывают, что эти методы эффективно обучают справедливые политики в различных областях.

media Interconnects · 9 д назад

Обзор рецептур после тренировки в Frontier с Finbarr Timbers

Аудио-программа рассматривает эволюцию рецептур после тренировки в больших языковых моделях, от InstructGPT до моделей передовой эпохи 2026 года. В ней подчеркивается Multi-Teacher On-Policy Distillation (MOPD) как доминирующий паттерн, при котором специализированные модели для определённых областей тренируются, а затем дистиллируются в общую модель-ученика с помощью дистилляции на основе политики, масштабируясь до более чем 10 учителей в моделях, таких как DeepSeek V4 и Nemotron 3 Ultra.

arxiv arXiv cs.AI · 9 д назад

Единая кausal-оригин топология для сдвигов распределения в RL

Эта статья вводит единую кausal-оригин топологию, которая классифицирует сдвиги распределения в репликационном обучении на внутренние, агент-ориентированные и внешние, среда-ориентированные источники. Она объединяет обобщение ID/OOD и непостоянные ситуации, представляя сдвиги как структурированные изменения в процессе взаимодействия агента и среды, используя разложение POMDP и подход с смещённой границей времени.

arxiv arXiv cs.AI · 9 д назад

CircuitLasso: масштабируемый метод обучения разреженных схем для интерпретируемости больших языковых моделей

CircuitLasso предлагает масштабируемый метод обучения разреженных схем в больших языковых моделях с использованием разреженной линейной регрессии. Он достигает структурной точности, сравнимой с методами, основанными на вмешательстве, при значительно меньших вычислительных затратах, одновременно обеспечивая эффективное обнаружение распространения семантических признаков и улучшая производительность на задачах обобщения в области с уменьшенными затратами.

arxiv arXiv cs.LG · 9 д назад

Единая кausalная классификация источников смещений распределений в RL

Данная статья предлагает единую кausalную классификацию источников смещений распределений в репликационном обучении, связывая обобщение в условиях ID/OOD с нестационарными ситуациями. В работе взаимодействие агента и среды разбивается с помощью рамки POMDP, идентифицируются смещения внутреннего, агент-ориентированного и внешнего, среды-ориентированного характера, с явными, скрытыми и гибридными типами, определенными границей смещения во времени. В работе представлено оценочное средство для измерения влияния смещения через метрики деградации и восстановления производительности, что позволяет проводить систематический анализ устойчивости RL.

arxiv arXiv cs.LG · 9 д назад

CircuitLasso: масштабируемое обучение схем для интерпретируемости LLM

CircuitLasso обеспечивает масштабируемое обучение схем в больших языковых моделях с использованием разреженной линейной регрессии. Он восстанавливает схемы с структурной точностью, соответствующей самым передовым методам, при значительно меньших вычислительных затратах, и демонстрирует семантическое распространение, понятное для человека, через компоненты модели. Полученные схемы обеспечивают сопоставимую производительность на задаче обобщения на области с уменьшенными затратами.