Лаборатория · Allen AI
arxiv arXiv cs.LG · 7 д назад

STARE: Регулирование преимуществ на уровне токенов с использованием сюрприза для стабильности энтропии политики

STARE решает проблему коллапса энтропии политики в методах обучения с усилением на основе GRPO, выявляя критические подмножества токенов с использованием квантилей сюрприза и пересчитывая их преимущества. Он обеспечивает стабильность энтропии политики на разных масштабах модели и задач, превосходя DAPO и другие базовые методы на 4%-8% на AIME24 и AIME25, с постоянным балансом между исследованием и эксплуатацией.

arxiv arXiv cs.LG · 7 д назад

OneCanvas: Понимание 3D-сцены через перепроекцию панорамы

OneCanvas обеспечивает понимание 3D-сцены в моделях Вид-Язык путем агрегации признаков патчей на единую панорамную панель с использованием координат 3D-мира. Оно достигает лучших результатов на SQA3D и VSI-Bench, и обобщается на данные вне распределения на SPBench, используя значительно меньшее количество вычислений на обучении по сравнению с существующими методами.

arxiv arXiv cs.AI · 7 д назад

STARE: Регулирование преимуществ на уровне токенов по принципу неожиданности для стабильности энтропии политики

STARE решает проблему коллапса энтропии политики в методе GRPO на основе обучения с усилением, определяя критические подмножества токенов по квантилям неожиданности и пересчитывая их преимущества. Оно обеспечивает стабильность энтропии политики на разных масштабах модели и задач, превосходя DAPO и другие базовые методы на 4%-8% на AIME24 и AIME25, с постоянным балансом между исследованием и эксплуатацией.

arxiv arXiv cs.AI · 7 д назад

Кадрово-условная самодистилляция

Кадрово-условная самодистилляция представляет собой рамку, которая использует структурированные критерии для предоставления детализированных, уровня токена обратной связи во время самодистилляции рациональных языковых моделей. При условии учитывания учителей на уровне критериев кадров, достигается более точное присвоение кредитов по сравнению с скалярными вознаграждениями, превосходя GRPO и OPSD на 1,0 и 0,9 пунктов в среднем по научным рациональным тестам.

arxiv arXiv cs.CL · 7 д назад

STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability

STARE решает проблему коллапса политической энтропии в методах GRPO на основе робастного обучения, определяя подмножества токенов, критичных для энтропии, с помощью квантилей неудивления и пересчитывая их преимущества. Оно обеспечивает стабильность политической энтропии на различных масштабах модели и задач, превосходя DAPO и другие базовые методы на 4%-8% на AIME24 и AIME25, с постоянным балансом между исследованием и эксплуатацией.

arxiv arXiv cs.CL · 7 д назад

Кадрово-условная самодистилляция

Кадрово-условная самодистилляция представляет собой рамку, которая использует структурированные критерии для предоставления детализированного, уровня токена обратной связи во время самодистилляции рациональных языковых моделей. С использованием условий для учителей на уровне критериев кадров, достигается более точное назначение кредитов, чем скалярные вознаграждения, и превосходит GRPO и OPSD на 1,0 и 0,9 пунктов в среднем по наукоемким тестам на рациональность.

arxiv arXiv cs.LG · 9 д назад

ROVE: обучение с помощью вмешательств человека для манипуляции робота-человека

ROVE позволяет моделям визуально-языкового-действующего типа для робота-человека эффективно обучаться манипуляционным поведением с использованием несовершенных вмешательств человека. Оно объединяет систему сбора данных с участием человека с оптимистичной оценкой ценности и перекрестным контролем тела для приоритизации высокочастотных действий и улучшения устойчивости. ROVE превосходит базовые методы на реальных задачах манипуляции с контактом благодаря итерационным циклам развертывания и вмешательства.

arxiv arXiv cs.LG · 9 д назад

HABC улучшает RL-настройку VLAs с разреженными результатами

Hierarchical Advantage-Weighted Behavior Cloning (HABC) улучшает онлайн-RL-настройку агентов визуально-языковых систем за счёт использования отдельных критических голов для жизнеспособности и эффективности. Оно объединяет их выходы через состояние-адаптивный воротник и применяет веса на переходе, при этом интервенция-ориентированная присвоение кредитов предотвращает утечку контроля. В реальных экспериментах с роботами HABC повышает показатели успеха до 92%, 88% и 38% на трёх бимануальных задачах, превосходя базовые значения SFT на 36%, 44% и 12%.

arxiv arXiv cs.AI · 6 д назад

RACL: Слой управления агентом для мета-оптимизации обучения

RACL вводит агента принятия решений, который управляет поведением мета-оптимизационного поиска, не заменяя оптимизаторы или изменяя ограничения. Он улучшает или сохраняет ключевые политики в экспериментах по маршрутизации транспортных средств, снижая среднюю стоимость на 8,337% по сравнению с Fixed и на 1,605% по сравнению с политиками, активированными при стагнации, без значительного увеличения вычислительной нагрузки.

arxiv arXiv cs.AI · 6 д назад

Гибридная система ANN-SNN с локальной пластичностью

Гибридная система ANN-SNN использует предобученные энкодеры EfficientNet и преобразует их активации в импульсные последовательности с помощью кодирования скорости. Система обучает спайковый классификатор CoLaNET с локальными правилами пластичности, достигая точности 99,09% на тестовом наборе ImageNet из 64 классов, что соответствует традиционным глубоким сетям.

arxiv arXiv cs.LG · 6 д назад

Обучение больших языковых моделей для агентов с длительным жизненным циклом через перекрестную обобщение в разных областях

Новый фреймворк позволяет большим языковым моделям развивать способность "Соединить точки", что позволяет агентам с длительным жизненным циклом учиться на опыте и итеративно обновлять контекст своей среды. Фреймворк использует обучение с помощью вознаграждений с длинными последовательностями и пользовательскими задачами, чтобы стимулировать перекрестное обобщение в разных областях, демонстрируя эффективную работу вне распределения как в одной области, так и при переходах между областями.

arxiv arXiv cs.LG · 6 д назад

Информационный анализ эффективного надзора в скрытой цепочке мыслей

Эта статья выявляет двойное падение в скрытой логике: затухание градиента и дрейф представлений. Предлагается траекториальный и пространственный надзор, показывая, что генеративное восстановление сохраняет информационную емкость лучше, чем геометрическое сжатие. Единый скрытый анализ измеряет взаимную информацию между скрытыми траекториями и шагами рассуждения, выявляя связь между информацией и производительностью в точности рассуждений.

arxiv arXiv cs.CL · 6 д назад

Семантические кластеры — предобучение Тетслин-машины для интерпретируемости

Новый подход предобучает Тетслин-машину с использованием семантических кластеров из моделей языка, избегая векторных представлений. Метод группирует текстовые образцы в связные кластеры с помощью K-средних или Top2Vec, затем использует пары кластер-образец для обучения неотрицательной Тетслин-машины с обратной связью типа I. Результаты показывают превосходную производительность на пяти наборах данных, соответствующую точности на уровне BERT, при сохранении полной интерпретируемости.

arxiv arXiv cs.CL · 6 д назад

Обучение больших языковых моделей для агентов с длительным жизненным циклом через перекрестную обобщение в разных областях

Новый фреймворк позволяет больших языковых моделей учиться "Соедините точки" с использованием обучения с подкреплением и длинных последовательностей развертывания. Метод включает специализированные задачи и среды, способствующие развитию мета-способностей, демонстрируя сильное перекрестное обобщение и эффективность в условиях, отличающихся от распределения. Реализации доступны по адресу https://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_cod.

arxiv arXiv cs.CL · 6 д назад

Информационный анализ эффективного надзора в скрытой цепочке мыслей

Эта работа выявляет двойное упадание в скрытой логике: ослабление градиента и дрейф представлений. Предлагается Траекториальный и Пространственный надзор, показывая, что генеративное восстановление сохраняет информационную емкость лучше, чем геометрическое сжатие. Единый скрытый анализ измеряет взаимную информацию между скрытыми траекториями и шагами мышления, выявляя связь между информацией и производительностью в точности мышления.

arxiv arXiv cs.LG · 7 д назад

Act2Answer оценивает сохранение знаний в моделях визуально-языковых-действий

Act2Answer вводит лёгкий протокол для оценки сохранения общеупотребимых и мировых знаний в моделях визуально-языковых-действий (VLA), требуя от агентов отвечать на вопросы через действия размещения объектов. Большой масштабный анализ 7 моделей VLA и 9 базовых моделей VLM показывает, что VLAs хорошо справляются с простыми концепциями, но демонстрируют большие разрывы в богатых семантических категориях по сравнению с их исходными моделями VLM, при этом обучение с помощью VQA улучшает сохранение знаний, а наиболее яркие сигналы, связанные с правильным ответом, наблюдаются в средних слоях VLA.

arxiv arXiv cs.AI · 7 д назад

Фундаментальные модели обучения с усилением должны быть уже существующими

Обучение с усилением не имеет фундаментальных моделей, несмотря на то, что синтетические МДП являются возможными. Прототип показывает, что одна модель, обученная на синтетических МДП, решает табличные задачи без настройки, превосходя существующие методы в онлайн-сценариях и соответствуя им в оффлайн-сценариях.

arxiv arXiv cs.AI · 7 д назад

Xcientist: Внешняя синтезация и проверка исследований в ИИ-исследователях

Xcientist представляет исследовательскую платформу, которая внешнюю синтезацию и делает видимыми процессы мышления в ИИ-исследователях. Она сохраняет отслеживаемые, договорно-управляемые исследовательские артефакты от формулирования проблемы до проверки, решая проблему смещения утверждений и обеспечивая научную ответственность.

arxiv arXiv cs.AI · 7 д назад

Техническая классификация протоколов коммуникации агентов на основе ЛЛМ

Новая классификация классифицирует протоколы коммуникации агентов на основе ЛЛМ по пяти измерениям: сопряжённый субъект, нагрузка, состояние взаимодействия, механизм обнаружения и гибкость схемы. Анализ показывает, что гибридные нагрузки, сохранение состояния сессии и переговоры о схеме во время выполнения являются распространенными, в то время как децентрализованное обнаружение остаётся редким. Исследование прогнозирует краткосрочную тенденцию к унификации протоколов агент-к-агенту и агент-к-контексту, и долгосрочное развитие в сторону распределённой, многоуровневой стека протоколов.

arxiv arXiv cs.LG · 8 д назад

Глубокое обучение с подкреплением для минимального нуля-вынуждающего множества

В этой статье предложена SD-ZFS, фреймворк глубокого обучения с подкреплением, адаптированный из S2V-DQN, для решения задачи минимального нуля-вынуждающего множества, которая является NP-сложной, на неориентированных графах. Фреймворк демонстрирует сильную производительность по сравнению с оптимальными решениями и жадными эвристиками, показывая эффективную обобщаемость, масштабируемость и переносимость на разнообразные структуры графов.