Тема · Training methods
arxiv arXiv cs.CL · 8 д назад

Динамическое редактирование последовательности уменьшает перегрузку мышления в моделях рассуждений, обученных методом релей-обучения

Динамическое редактирование последовательности (DRE) решает проблему перегрузки мышления в моделях рассуждений, обученных методом релей-обучения, путем модификации успешных траекторий после появления ответа. DRE сохраняет правильный предварительный этап рассуждения, при этом редактирует ненужные продолжения, ослабляя кредит, присваиваемый избыточным рассуждениям, без наказания за корректные рассуждения. Эксперименты на различных задачах демонстрируют его эффективность в снижении перегрузки мышления.

arxiv arXiv cs.CL · 9 д назад

DeepRubric: Эффективная RL для агентов глубокого исследования

DeepRubric представляет рамку построения данных, которая создает пары запрос-оценочный критерий, начиная с определения верифицируемых целей оценки через дерево доказательств. Оно генерирует 9K примеров надзора и обучает модель размером 8B с использованием GRPO, достигая производительности, сравнимой с лучшими моделями, при использовании в 13 раз меньшего количества часов GPU для RL.

arxiv arXiv cs.LG · 9 д назад

ExpRL: Исследовательская RL для среднего обучения LLM

ExpRL вводит новую методику среднего обучения для LLM, используя данные вопрос-ответ, написанные людьми, как основу вознаграждения. Вместо имитации ссылочных решений, она строит специфические для задачи критерии оценки для вознаграждения промежуточных шагов рассуждения, что позволяет лучше инициализировать спарсенные вознаграждения RL и превосходить SFT, спарсенный GRPO и самодистилляцию на задачах математического мышления.

arxiv arXiv cs.LG · 9 д назад

HABC улучшает RL-настройку VLAs с разреженными результатами

Hierarchical Advantage-Weighted Behavior Cloning (HABC) улучшает онлайн-RL-настройку агентов визуально-языковых систем за счёт использования отдельных критических голов для жизнеспособности и эффективности. Оно объединяет их выходы через состояние-адаптивный воротник и применяет веса на переходе, при этом интервенция-ориентированная присвоение кредитов предотвращает утечку контроля. В реальных экспериментах с роботами HABC повышает показатели успеха до 92%, 88% и 38% на трёх бимануальных задачах, превосходя базовые значения SFT на 36%, 44% и 12%.

arxiv arXiv cs.LG · 9 д назад

Геометрическая модель действий для обучения политик роботов

Геометрическая модель действий (GAM) позволяет политикам роботов мыслить о трехмерных физических взаимодействиях, перепрограммируя предобученную геометрическую основную модель. GAM разделяет GFM на наблюдательный кодировщик и предиктор причинно-следственных будущих состояний, затем направляет предсказанные будущие геометрические формы и действия через один и тот же основной слой, обеспечивая точные, устойчивые и эффективные результаты в манипуляции в симуляции и на реальных роботах.

media Interconnects · 9 д назад

Обзор рецептур после тренировки в Frontier с Finbarr Timbers

Аудио-программа рассматривает эволюцию рецептур после тренировки в больших языковых моделях, от InstructGPT до моделей передовой эпохи 2026 года. В ней подчеркивается Multi-Teacher On-Policy Distillation (MOPD) как доминирующий паттерн, при котором специализированные модели для определённых областей тренируются, а затем дистиллируются в общую модель-ученика с помощью дистилляции на основе политики, масштабируясь до более чем 10 учителей в моделях, таких как DeepSeek V4 и Nemotron 3 Ultra.

arxiv arXiv cs.CL · 9 д назад

Контрастно-разностное CKA раскрывает концептуально-специфическое выравнивание между архитектурами языковых моделей

Бесплатный диагностический инструмент, контрастно-разностное CKA (CKA_Delta), выявляет концептуально-специфическое структурное выравнивание между архитектурами языковых моделей. Оно обнаруживает геометрическое сходство и функциональную передачу в шести концептуальных областях, включая ненавыковые задачи, с значительной дискриминацией там, где стандартное CKA не справляется. Результаты указывают на то, что универсальность может усиливаться с ростом масштаба моделей, хотя необходима дополнительная проверка.

arxiv arXiv cs.CL · 9 д назад

Ключевые свойства для эффективного рассуждения кодового интерпретатора

Исследование выявляет внешние (ключевые токены) и внутренние (когнитивные поведения) свойства, которые улучшают рассуждение кодового интерпретатора в больших языковых моделях. Модели с более сильным рассуждением демонстрируют более высокую частоту верификации, отката и обратного вывода, при этом эти свойства повышают производительность во время инференса и обучения, снижают избыточное мышление и повышают эффективность токенов.

arxiv arXiv cs.AI · 9 д назад

MA-SBI: калибровка-безопасный SBI через направление стороннего канала

MA-SBI представляет рамку симуляционного вывода без калибровки, которая использует текстовые данные стороннего канала, такие как метки режима или инструкции, для коррекции недостаточности симулятора. Оно использует обученный корректор для применения сдвигов в пространстве наблюдений до вывода постериорного распределения, не требуя пар параметров с истинными значениями или переподготовки. На тестах hide-the-calibration MA-SBI достигает орального постериорного распределения с помощью текста, превосходя RoPE при ограниченных данных, и демонстрирует устойчивость на реальных данных по эпидемиологии и когнитивной науке.

arxiv arXiv cs.AI · 9 д назад

Единая кausal-оригин топология для сдвигов распределения в RL

Эта статья вводит единую кausal-оригин топологию, которая классифицирует сдвиги распределения в репликационном обучении на внутренние, агент-ориентированные и внешние, среда-ориентированные источники. Она объединяет обобщение ID/OOD и непостоянные ситуации, представляя сдвиги как структурированные изменения в процессе взаимодействия агента и среды, используя разложение POMDP и подход с смещённой границей времени.

arxiv arXiv cs.AI · 9 д назад

Низкая частота кадров в нейронных аудиокодеках

Качественный спад на частоте 6,25 Гц в нейронных аудиокодеках вызван недостаточным количеством обучающих токенов из-за фиксированной продолжительности кадра. Коррекция этой конфигурации обучения позволяет обеспечить плавное снижение ошибки распознавания до 3,1 Гц и 1,6 Гц, что указывает на то, что низкая частота кадров может быть достигнута эффективнее, чем ранее считалось.

arxiv arXiv cs.AI · 9 д назад

PACT: Делегирование малого языкового модели для реактивного обучения с подкреплением

PACT объединяет реактивную политику RL с малой языковой моделью на 2 миллиона параметров для генерации и проверки планов действий. План от малой языковой модели выполняется напрямую, если он подтверждается как безопасный, выполнимый и полный, что позволяет обойти политику RL. PACT превосходит базовые методы на трёх всё более сложных средах FrozenLake.

arxiv arXiv cs.LG · 9 д назад

Оптимизация Hyperball для ускорения обучения языковых моделей

Hyperball — это простой обертка оптимизатора, которая устанавливает фиксированные нормы Фробениуса для матриц весов и их обновлений. Она повышает скорость обучения и передачу скорости обучения в больших моделях, обеспечивая ускорение на 20--30% по количеству токенов по сравнению с базовыми вариантами с весовым уменьшением на моделях до 1,2 миллиарда параметров.

arxiv arXiv cs.LG · 9 д назад

Факторизованные нейронные операторы разбивают динамические и устойчивые реакции

Факторизованные нейронные операторы (FaNO) разбивают спектральные представления на эквивариантные динамические и инвариантные устойчивые реакции. Такая факторизованная структура обеспечивает лучшую интерпретируемость, обобщение и стабильные предсказания на разных масштабах, областях и физических режимах.

arxiv arXiv cs.LG · 9 д назад

Адаптивный функциональный градиентный спуск с гарантиями сходимости

Мы предлагаем новый алгоритм функционального градиентного спуска, который адаптирует свою представляемость во время оптимизации. Метод достигает сходимости к стационарной точке при гладких потерь и к глобальному минимуму при гладкости и условии Поляка-Лојасевича, несмотря на использование конечномерных приближений. Он превосходит как фиксированные приближения FGD, так и базовые нейронные сети на задачах регрессии, решения уравнений в частных производных и компьютерного зрения.

arxiv arXiv cs.LG · 9 д назад

Единая кausalная классификация источников смещений распределений в RL

Данная статья предлагает единую кausalную классификацию источников смещений распределений в репликационном обучении, связывая обобщение в условиях ID/OOD с нестационарными ситуациями. В работе взаимодействие агента и среды разбивается с помощью рамки POMDP, идентифицируются смещения внутреннего, агент-ориентированного и внешнего, среды-ориентированного характера, с явными, скрытыми и гибридными типами, определенными границей смещения во времени. В работе представлено оценочное средство для измерения влияния смещения через метрики деградации и восстановления производительности, что позволяет проводить систематический анализ устойчивости RL.

arxiv arXiv cs.LG · 9 д назад

Ключевые свойства для эффективного рассуждения код-интерпретатора

Исследование выявляет внешние (ключевые токены) и внутренние (когнитивные поведения) свойства, которые улучшают рассуждение код-интерпретатора в больших языковых моделях. Модели с более сильным рассуждением демонстрируют более высокую частоту использования верификации, отката и обратного вывода, при этом эти свойства повышают производительность во время инференса и обучения, снижают избыточное мышление и повышают эффективность токенов.

arxiv arXiv cs.LG · 9 д назад

PACT: Делегирование малого языкового модели для реактивного обучения с подкреплением

PACT объединяет реактивную политику обучения с подкреплением с малой языковой моделью на 2 миллиона параметров для генерации и проверки планов действий. План от малой языковой модели выполняется напрямую, если он подтверждается в симуляции, без необходимости возвращаться к политике обучения с подкреплением и переподготовки. PACT превосходит базовые методы на трёх всё более сложных средах FrozenLake.

arxiv arXiv cs.LG · 9 д назад

После-последовательные операторы ложной фальсификации не улучшают точность в малых моделях кода

Исследование по измерению показало, что 26 семантических после-последовательных операторов не улучшают точность на выделенных данных по сравнению с Best-of-N в замороженных малых моделях кода. Хотя некоторые операторы снижают использование вычислительных ресурсов или восстанавливают правильные программы, ни один из них не превосходит BoN по точности из-за системных ограничений, таких как барьеры покрытия и ловушки консенсуса. Операция восстановления на уровне выражений (M1) улучшает производительность на HumanEval+ на 12 задач, без вреда или утечки, и демонстрирует стабильные результаты на всех ячейках моделей.

arxiv arXiv cs.LG · 9 д назад

Точная оценка постериорного скоора для линейных обратных задач

В статье получена точная постериорная оценка в закрытой форме для линейных гауссовых обратных задач, что позволяет эффективно осуществлять выборку постериоров с помощью дезактивации. Вводится точная постериорная оценка (EPS), цель обучения, которая сохраняет структуру предобучения и обеспечивает превосходную производительность по метрикам точности, восприятию и распределения с меньшим числом оценок дезактиватора по сравнению с градиентными методами.