Тема · Reasoning models
arxiv arXiv cs.AI · 6 д назад

CRAX: Быстрый безопасный бенчмарк для обучения с усилением

CRAX вводит высокоточный ускоренный бенчмарк безопасности для обучения с усилением с использованием MuJoCo XLA. Он достигает ускорения до 100 раз по сравнению с бенчмарками на процессоре за счёт векторизации и ускорения аппаратными средствами, включая шесть наборов сред и три задачи для агентов на трёх уровнях сложности. Оценка шести методов безопасного обучения с усилением показывает, что ни один подход не доминирует, что подчёркивает компромиссы между производительностью и безопасностью, при этом куррикулярное обучение и передача безопасности улучшают результаты.

arxiv arXiv cs.LG · 6 д назад

VIMPO: критерий-бесплатная оптимизация политики для больших языковых моделей

VIMPO представляет метод критерий-бесплатной оптимизации политики, который получает функцию значений, имплицированную политикой, из обучения по репликации с регуляризацией КЛ. Он позволяет интегрировать вознаграждение с верификацией без обучения критерия и превосходит GRPO на математических тестах, особенно при шумных вознаграждениях.

arxiv arXiv cs.LG · 6 д назад

Контроль на основе LLM в многоконтролируемых играх

Характеристика иерархической системы, использующей предобученный LLM для выбора политик RL-навыков, превосходит плоскую RL в среде 2v2 King of the Hill. Она соответствует показателю эффективности, достигнутому при ручной разработке дерева поведения, и воспринимается как более человеческая на 60% пользователей, что подчеркивает эффективную координацию и адаптивность без ручного проектирования правил.

arxiv arXiv cs.LG · 6 д назад

Pose6DAug: Физически обоснованный обмен объектами в многокамерном виде

Pose6DAug обеспечивает аугментацию данных для роботов путем обмена объектами в успешных сессиях, при этом сохраняя физически допустимые траектории 6D ориентации. Оно работает в 3D с использованием сетки, закрепленной за временно согласованными ориентациями, обеспечивая согласованность во множестве камер и физическую обоснованность. Тонкая настройка политики VLA на этом аугментированном данных повышает показатели успешного обнаружения новых объектов на 16,5% по сравнению с современными базовыми моделями.

arxiv arXiv cs.LG · 6 д назад

Генерируемые LLM-ядра GPU подвергаются иллюзии корректности

Оценки с использованием проверок фиксированной формы пропускают реальные ошибки в ядрах GPU, генерируемых LLM. Контролируемый корпус из 24 ядер, включающий 9 вариантов с ошибками транскрипции, показывает, что оракул, учитывающий схему операций, обнаруживает все сбои и проходит все корректные проверки, с одинаковыми результатами на пяти архитектурах GPU.

arxiv arXiv cs.LG · 6 д назад

CRAX: быстрая и безопасная оценка в области обучения с усилением

CRAX представляет высокоточную, быструю оценку безопасности в области обучения с усилением, используя MuJoCo XLA. Он обеспечивает ускорение до 100 раз по сравнению с оценками на процессоре за счёт векторизации и ускорения аппаратными средствами, включая шесть наборов сред и три задачи для агентов на трёх уровнях сложности. Оценка шести методов безопасного обучения с усилением показывает, что ни один подход не доминирует, подчёркивая компромиссы между производительностью и безопасностью, при этом куррикулярное обучение и передача безопасности улучшают результаты.

arxiv arXiv cs.CL · 6 д назад

AgentFinVQA: аудитируемый, локальный вопрос-ответ по финансовым графикам

AgentFinVQA представляет многоагентную систему для вопросов по финансовым графикам, обеспечивающую аудитируемость и возможность развертывания на локальной инфраструктуре без значительного снижения точности. Она превосходит базовые модели на +7,68 pp при использовании проприетарного ядра и на +4,84 pp с открытыми весами Qwen3.6-27B-FP8, при этом обеспечивая сигнал уверенности через вывод верификатора, что улучшает маршрутизацию ручного обзора.

arxiv arXiv cs.CL · 6 д назад

Селективная проверка для рассуждений с учетом бюджета

Sevra, управляющий слой контроллера, селективно проверяет ответы для повышения точности и снижения использования токенов. На \mathfive оно достигает точности 76,3% с 26,8% меньшим количеством токенов после генерации и вдвое меньшим количеством вредоносных ошибок, при этом на \gsm оно проверяет только 3,0% примеров, повышая точность до 94,5% и сокращая использование токенов проверки на 91,2%. Исследование показывает, что длина начального решения и необходимость в явном контроле определяют оптимальную стратегию проверки.

arxiv arXiv cs.CL · 6 д назад

Закон контроля окна для управления одним нейроном в языковых моделях

Новый фреймворк определяет, в каких случаях вмешательства в отдельный нейрон согласованно контролируют поведение модели без коллапса выводов. Окно контроля, основанное на сопоставлении и отношениях норм, предсказывает триггеры поведения и верхние пределы коллапса с использованием данных прямого прохода, с высокой точностью на отложенных нейронах. При отказе контроль типизируется: согласованное обходное поведение происходит без содержательных действий, в то время как истинное достижение действий проявляется только в определенных случаях и на поздних стадиях развертывания.

arxiv arXiv cs.CL · 6 д назад

AtomMem: Простая и эффективная система памяти для агентов LLM

AtomMem представляет систему памяти, которая хранит высокочастотные атомарные факты из длительных взаимодействий. Она использует иерархические структуры событий и временные профили для отслеживания согласованных эпизодических контекстов и изменяющихся пользовательских характеристик, обеспечивая стабильное и эффективное эволюционирование памяти. Эксперименты на бенчмарке LoCoMo показывают, что AtomMem достигает наилучших результатов в задачах логического мышления.

arxiv arXiv cs.CL · 6 д назад

GEMS: Геометрические ограничения обеспечивают мульти-семантическую суперпозицию в LLMs

GEMS обеспечивает обучение-бесподобную суперпозицию нескольких семантических направлений в LLMs за счёт устранения распределительной дисперсии и направляющего интерференции с помощью геометрических ограничений. На GSM8K оно сохраняет точность на уровне 98% при трёх неподходящих математических направлениях, в то время как неограниченное сложение падает до 4%; на Wikitext-2 оно повышает PPL всего на 2,2%.

arxiv arXiv cs.CL · 6 д назад

HydraHead: гибридное внимание на уровне головок для производительности при длинных контекстах

HydraHead вводит гибридное объединение полного и линейного внимания на уровне головок, используя интерпретируемость для выбора головок, критичных для поиска, и объединяя выходы через модуль с нормализацией масштаба. Обученный на 15 миллиардов токенов, он обеспечивает более чем 69% улучшения по сравнению с базовой моделью при длине контекста 512K, превосходя гибридные модели на уровне слоев и приближаясь к производительности Qwen3.5 на задачах с длинными контекстами.

arxiv arXiv cs.CL · 6 д назад

Каузальные направления активации для смягчения эмерджентной несоответственности в языковых моделях

Тонкая настройка языковых моделей на небезопасном коде приводит к эмерджентной несоответственности. Общее направление активации в четырех семействах моделей обеспечивает разделяемость 99,6% между соответствующими и несоответствующими активациями, а вычитание этого направления снижает проникновение кода на 21–51 балл. Переход между архитектурами демонстрирует подавление поведения, но отсутствует специфичность; направления внутри модели являются кausalно действительными, а направления между моделями — только кausalно реальными.

arxiv arXiv cs.LG · 7 д назад

Дискриминатор-ориентированный RL корректирует потоковое соответствие с помощью наград, синхронизированных с данными

Дискриминатор-ориентированный RL (DRL) использует предобученное пространство представлений для обучения дискриминатора, который отделяет реальные данные от образцов, сгенерированных моделью. Его логит используется в качестве награды в RL с регуляризацией КЛ, обеспечивая соответствие выводов модели визуальной и семантической реальности без человеческих предпочтений. DRL улучшает FID и семантическую FD во всех моделях, таких как SiT и JiT, и усиливает границу Парето между предпочтениями и точностью.

arxiv arXiv cs.LG · 7 д назад

МАСТ обеспечивает селективное исключение в процессе принятия решений, вызванного RLVR

МАСТ, механизм-ориентированный метод исключения, достигает целенаправленного забвения процесса принятия решений, вызванного RLVR, с минимальными побочными эффектами. На Qwen2.5-Math-1.5B и Qwen3-1.7B-Base он значительно снижает производительность MATH (45/150 до 37/15-0), при этом сохраняет точность GSM8K на +0.8 пунктов и поддерживает сохранение MATH на -0.5 пунктов. Результаты остаются стабильными при различных семенах, целях и моделях, демонстрируя превосходную стабильность по сравнению с полным исключением параметров.

arxiv arXiv cs.LG · 7 д назад

STARE: Регулирование преимуществ на уровне токенов с использованием сюрприза для стабильности энтропии политики

STARE решает проблему коллапса энтропии политики в методах обучения с усилением на основе GRPO, выявляя критические подмножества токенов с использованием квантилей сюрприза и пересчитывая их преимущества. Он обеспечивает стабильность энтропии политики на разных масштабах модели и задач, превосходя DAPO и другие базовые методы на 4%-8% на AIME24 и AIME25, с постоянным балансом между исследованием и эксплуатацией.

arxiv arXiv cs.LG · 7 д назад

TxBench-PP: производительность ИИ-агента в преследовании фармакологии

TxBench-PP — это проверяемый бенчмарк для преследования фармакологии маломолекул, проверяющий способность ИИ-агентов делать точные выводы на основе реальных данных о пробах. В 16 конфигурациях моделей-инструментов ни одна система не демонстрировала надежную способность принимать правильные решения в области преследования фармакологии, лучшая производительность составила 59,3% (Claude Opus 4.8 / Pi) и 55,3% (GPT-5.5 / Pi) по попыткам достижения конечных результатов.

arxiv arXiv cs.LG · 7 д назад

OneCanvas: Понимание 3D-сцены через перепроекцию панорамы

OneCanvas обеспечивает понимание 3D-сцены в моделях Вид-Язык путем агрегации признаков патчей на единую панорамную панель с использованием координат 3D-мира. Оно достигает лучших результатов на SQA3D и VSI-Bench, и обобщается на данные вне распределения на SPBench, используя значительно меньшее количество вычислений на обучении по сравнению с существующими методами.

arxiv arXiv cs.LG · 7 д назад

Diffusion-Proof: Первый фреймворк для диффузионных LLM в формальной доказательной математике

Diffusion-Proof — первый фреймворк для обучения и применения диффузионных языковых моделей в формальной доказательной математике. Он вводит dLLM-Prover-7B для написания полных доказательств с долгосрочной согласованностью и dLLM-Corrector-7- для локальной коррекции доказательств с использованием обратной информации. Фреймворк превосходит автокоррекционные базовые LLM на 1,61% на ProofNet-Test и на 6,14% на MiniF2F-Test, и решает задачу IMO за пределами возможностей DeepSeek-Prover-V2-7B.

arxiv arXiv cs.AI · 7 д назад

Пользователь как энгра: локальные параметрические редакции для личной памяти

Пользователь как энгра предлагает хранить факты по каждому пользователю в виде хирургических, хеш-ключевых редакций в таблице памяти, оставляя процесс мышления в общем адаптере. Такой подход обеспечивает на 5,6 раза более высокую точность косвенного мышления и сохраняет базовую производительность мышления, при этом объем памяти на 33 000 раз меньше, чем при использовании LoRA по каждому пользователю. Метод позволяет выполнять раздельные редакции пользователей, которые составляются без потерь, превосходя ретриевные потоки при более чем 100 фактах.