Лаборатория · Allen AI
arxiv arXiv cs.CL · 2 д назад

Beaver: агент-интерфейс для научной кураторской работы из мультимодальных источников

Beaver — это агент-интерфейс, который извлекает структурированную информацию из научных статей за счёт интеграции инструментов мультимодальной поддержки, структурирования задач и автономного поиска на основе артефактов. Он достигает 81,0 по показателю Gold-Referenced Attribute Score, превосходя передовые агенты на более чем 23 балла, с ключевыми достижениями по высокозначимым атрибутам, требующим мультимодального мышления.

arxiv arXiv cs.CL · 6 д назад

H-RePlan: иерархическое восстановление для систем агентов на разных устройствах

H-RePlan вводит иерархическую систему перепланирования, которая разделяет восстановление стратегии на уровне устройства и перепланирование на глобальном уровне. Оно превосходит существующие базовые варианты, достигая более высокого уровня завершения и соблюдения инструкций, при снижении затрат на токены, за счёт восстановления с учётом области в системах агентов на нескольких устройствах.

arxiv arXiv cs.LG · 7 д назад

STARE: Регулирование преимуществ на уровне токенов с использованием сюрприза для стабильности энтропии политики

STARE решает проблему коллапса энтропии политики в методах обучения с усилением на основе GRPO, выявляя критические подмножества токенов с использованием квантилей сюрприза и пересчитывая их преимущества. Он обеспечивает стабильность энтропии политики на разных масштабах модели и задач, превосходя DAPO и другие базовые методы на 4%-8% на AIME24 и AIME25, с постоянным балансом между исследованием и эксплуатацией.

arxiv arXiv cs.LG · 7 д назад

OneCanvas: Понимание 3D-сцены через перепроекцию панорамы

OneCanvas обеспечивает понимание 3D-сцены в моделях Вид-Язык путем агрегации признаков патчей на единую панорамную панель с использованием координат 3D-мира. Оно достигает лучших результатов на SQA3D и VSI-Bench, и обобщается на данные вне распределения на SPBench, используя значительно меньшее количество вычислений на обучении по сравнению с существующими методами.

arxiv arXiv cs.AI · 7 д назад

STARE: Регулирование преимуществ на уровне токенов по принципу неожиданности для стабильности энтропии политики

STARE решает проблему коллапса энтропии политики в методе GRPO на основе обучения с усилением, определяя критические подмножества токенов по квантилям неожиданности и пересчитывая их преимущества. Оно обеспечивает стабильность энтропии политики на разных масштабах модели и задач, превосходя DAPO и другие базовые методы на 4%-8% на AIME24 и AIME25, с постоянным балансом между исследованием и эксплуатацией.

arxiv arXiv cs.AI · 7 д назад

Кадрово-условная самодистилляция

Кадрово-условная самодистилляция представляет собой рамку, которая использует структурированные критерии для предоставления детализированных, уровня токена обратной связи во время самодистилляции рациональных языковых моделей. При условии учитывания учителей на уровне критериев кадров, достигается более точное присвоение кредитов по сравнению с скалярными вознаграждениями, превосходя GRPO и OPSD на 1,0 и 0,9 пунктов в среднем по научным рациональным тестам.

arxiv arXiv cs.CL · 7 д назад

STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability

STARE решает проблему коллапса политической энтропии в методах GRPO на основе робастного обучения, определяя подмножества токенов, критичных для энтропии, с помощью квантилей неудивления и пересчитывая их преимущества. Оно обеспечивает стабильность политической энтропии на различных масштабах модели и задач, превосходя DAPO и другие базовые методы на 4%-8% на AIME24 и AIME25, с постоянным балансом между исследованием и эксплуатацией.

arxiv arXiv cs.CL · 7 д назад

Кадрово-условная самодистилляция

Кадрово-условная самодистилляция представляет собой рамку, которая использует структурированные критерии для предоставления детализированного, уровня токена обратной связи во время самодистилляции рациональных языковых моделей. С использованием условий для учителей на уровне критериев кадров, достигается более точное назначение кредитов, чем скалярные вознаграждения, и превосходит GRPO и OPSD на 1,0 и 0,9 пунктов в среднем по наукоемким тестам на рациональность.

arxiv arXiv cs.LG · 9 д назад

ROVE: обучение с помощью вмешательств человека для манипуляции робота-человека

ROVE позволяет моделям визуально-языкового-действующего типа для робота-человека эффективно обучаться манипуляционным поведением с использованием несовершенных вмешательств человека. Оно объединяет систему сбора данных с участием человека с оптимистичной оценкой ценности и перекрестным контролем тела для приоритизации высокочастотных действий и улучшения устойчивости. ROVE превосходит базовые методы на реальных задачах манипуляции с контактом благодаря итерационным циклам развертывания и вмешательства.

arxiv arXiv cs.LG · 9 д назад

HABC улучшает RL-настройку VLAs с разреженными результатами

Hierarchical Advantage-Weighted Behavior Cloning (HABC) улучшает онлайн-RL-настройку агентов визуально-языковых систем за счёт использования отдельных критических голов для жизнеспособности и эффективности. Оно объединяет их выходы через состояние-адаптивный воротник и применяет веса на переходе, при этом интервенция-ориентированная присвоение кредитов предотвращает утечку контроля. В реальных экспериментах с роботами HABC повышает показатели успеха до 92%, 88% и 38% на трёх бимануальных задачах, превосходя базовые значения SFT на 36%, 44% и 12%.

arxiv arXiv cs.AI · 1 д назад

ARCO: адаптивный рубрик с когенерацией для агентов на основе многошаговых ЛЛМ

ARCO представляет рамку рубрики, которая позволяет осуществлять присвоение кредитов на уровне шагов для агентов на основе многошаговых ЛЛМ. Он одновременно обновляет общую модель с головками генерации и оценки, позволяя содержанию рубрики и функции оценки когенерироваться через данные на-политики, что улучшает производительность и интерпретируемость на различных тестах.

media r/LocalLLaMA · 1 д назад

Агент Tmax-27B для малых видеокарт с обучением DPPO

Tmax-27B — это терминальный агент, основанный на Qwen3.6-27B, обученный с использованием DPPO (RL), достигающий 43% на Terminal Bench 2.0 и 69% на TB Lite. Для работы на потребительских видеокартах он квантируется с использованием калиброванных матриц важности GGUF моделей с 2 до 5 бит на вес, с встроенной головой MTP, обеспечивающей спекулятивное декодирование. Модель IQ2_XS размером 8,5 ГиБ достигает 70% в задачах агентного программирования, превосходя простую квантизацию и демонстрируя стабильность генерации инструментальных вызовов.

arxiv arXiv cs.CL · 2 д назад

Саморазвитие агентов, использующих инструменты, через обучение предпочтений в точках разрыва

ToolGraph повышает эффективность агентов, использующих инструменты в многоходовых сессиях, интегрируя схему топологии, веса переходов и контроль, учитывающий историю. Обучение с DPO на 161 паре предпочтений в точках разрыва улучшает производительность: ToolGraph+DPO достигает роста награды на 16,8% по сравнению с базовой версией, особенно в задачах авиационного и розничного сектора, где появление положительных наград выступает ключевым диагностическим сигналом.

arxiv arXiv cs.CL · 2 д назад

Сравнение на уровне токенов трансформеров и гибридных моделей

Исследование, использующее открытые веса Olmo 3 и Olmo Hybrid, показывает, что гибридные модели превосходят трансформеры по открытым классам слов и открывающим разделителям. Повышение менее стабильно для закрытых классов функциональных слов и закрывающих разделителей, при этом гибридные модели отлично справляются с задачами, связанными со статусом смысла, такими как запоминание местоимений и отслеживание сущностей, в то время как трансформеры лучше справляются с задачами по соответствию скобкам. Эти результаты указывают на то, что рекуррентные слои улучшают предсказания, связанные со статусом, а внимание поддерживает распознавание n-грамм и синтаксических паттернов.

arxiv arXiv cs.CL · 2 д назад

ARCO: адаптивный рубрикатор с когерентным развитием для агентов на основе многократных LLM

ARCO представляет рамку рубрики, которая позволяет осуществлять присвоение кредитов на уровне шагов для агентов на основе многократных LLM. Он одновременно обновляет общий модель с головками генерации и оценки, позволяя содержанию рубрики и функции оценки когерентно развиваться за счёт данных на-политики, что улучшает производительность и интерпретируемость на различных тестовых наборах.

media r/LocalLLaMA · 3 д назад

TMax: Простой рецепт для агентов в терминале

TMax представляет TMax-15k, набор из 14 600 сред RL, превышающий на более чем 2,5 раза самый большой открытый набор сред в терминале. Также предлагается простой рецепт RL, который обучает открытые модели от 2 миллиардов до 27 миллиардов параметров, при этом TMax-9B достигает 27,2% на Terminal Bench 2.0, а TMax-27B — 42,7%.

media r/LocalLLaMA · 4 д назад

AllenAI выпустил модели MolmoMotion для прогнозирования движений в будущем

AllenAI выпустил две модели MolmoMotion, которые прогнозируют трёхмерные траектории точек на основе коротких историй видео и естественных языковых инструкций. Одна модель использует историю из трёх кадров, другая — из одного кадра, что позволяет прогнозировать будущее движение объектов в трёхмерном пространстве.

arxiv arXiv cs.AI · 6 д назад

Изучаемое глобальное слияние для переменной длины токенизации в трансформерах диффузии

Новый токенизатор с переменной длиной использует изучаемое глобальное слияние для обеспечения сопоставления представлений разной длины в моделях диффузии. Этот подход, независимый от данных, преодолевает позиционные семантики и улучшает соотношение качества и вычислительных затрат при генерации изображений ImageNet 256×25-6 по сравнению с предыдущими методами.

arxiv arXiv cs.AI · 6 д назад

Скрытая эволюция скрытого визуального контекста в моделях с визуальным языком

Визуальные токены поступают в большие языковые модели в виде первичных, неструктурированных сигналов. Их внутреннее преобразование и интеграция зависят от архитектуры — либо как встроенные контекстные запросы, либо как вводимые в промежуточные слои — что приводит к различным путям эволюции визуальных представлений и характеристик частоты. Мы обнаруживаем, что внимание само по себе недостаточно; производительность определяется качеством визуальных представлений на каждом слое в различных схемах интеграции.