Training methods
arxiv arXiv cs.AI · 9 д назад

Единая кausal-оригин топология для сдвигов распределения в RL

Эта статья вводит единую кausal-оригин топологию, которая классифицирует сдвиги распределения в репликационном обучении на внутренние, агент-ориентированные и внешние, среда-ориентированные источники. Она объединяет обобщение ID/OOD и непостоянные ситуации, представляя сдвиги как структурированные изменения в процессе взаимодействия агента и среды, используя разложение POMDP и подход с смещённой границей времени.

arxiv arXiv cs.AI · 9 д назад

Низкая частота кадров в нейронных аудиокодеках

Качественный спад на частоте 6,25 Гц в нейронных аудиокодеках вызван недостаточным количеством обучающих токенов из-за фиксированной продолжительности кадра. Коррекция этой конфигурации обучения позволяет обеспечить плавное снижение ошибки распознавания до 3,1 Гц и 1,6 Гц, что указывает на то, что низкая частота кадров может быть достигнута эффективнее, чем ранее считалось.

arxiv arXiv cs.AI · 9 д назад

PACT: Делегирование малого языкового модели для реактивного обучения с подкреплением

PACT объединяет реактивную политику RL с малой языковой моделью на 2 миллиона параметров для генерации и проверки планов действий. План от малой языковой модели выполняется напрямую, если он подтверждается как безопасный, выполнимый и полный, что позволяет обойти политику RL. PACT превосходит базовые методы на трёх всё более сложных средах FrozenLake.

arxiv arXiv cs.LG · 9 д назад

Оптимизация Hyperball для ускорения обучения языковых моделей

Hyperball — это простой обертка оптимизатора, которая устанавливает фиксированные нормы Фробениуса для матриц весов и их обновлений. Она повышает скорость обучения и передачу скорости обучения в больших моделях, обеспечивая ускорение на 20--30% по количеству токенов по сравнению с базовыми вариантами с весовым уменьшением на моделях до 1,2 миллиарда параметров.

arxiv arXiv cs.LG · 9 д назад

Факторизованные нейронные операторы разбивают динамические и устойчивые реакции

Факторизованные нейронные операторы (FaNO) разбивают спектральные представления на эквивариантные динамические и инвариантные устойчивые реакции. Такая факторизованная структура обеспечивает лучшую интерпретируемость, обобщение и стабильные предсказания на разных масштабах, областях и физических режимах.

arxiv arXiv cs.LG · 9 д назад

Адаптивный функциональный градиентный спуск с гарантиями сходимости

Мы предлагаем новый алгоритм функционального градиентного спуска, который адаптирует свою представляемость во время оптимизации. Метод достигает сходимости к стационарной точке при гладких потерь и к глобальному минимуму при гладкости и условии Поляка-Лојасевича, несмотря на использование конечномерных приближений. Он превосходит как фиксированные приближения FGD, так и базовые нейронные сети на задачах регрессии, решения уравнений в частных производных и компьютерного зрения.

arxiv arXiv cs.LG · 9 д назад

Единая кausalная классификация источников смещений распределений в RL

Данная статья предлагает единую кausalную классификацию источников смещений распределений в репликационном обучении, связывая обобщение в условиях ID/OOD с нестационарными ситуациями. В работе взаимодействие агента и среды разбивается с помощью рамки POMDP, идентифицируются смещения внутреннего, агент-ориентированного и внешнего, среды-ориентированного характера, с явными, скрытыми и гибридными типами, определенными границей смещения во времени. В работе представлено оценочное средство для измерения влияния смещения через метрики деградации и восстановления производительности, что позволяет проводить систематический анализ устойчивости RL.

arxiv arXiv cs.LG · 9 д назад

Ключевые свойства для эффективного рассуждения код-интерпретатора

Исследование выявляет внешние (ключевые токены) и внутренние (когнитивные поведения) свойства, которые улучшают рассуждение код-интерпретатора в больших языковых моделях. Модели с более сильным рассуждением демонстрируют более высокую частоту использования верификации, отката и обратного вывода, при этом эти свойства повышают производительность во время инференса и обучения, снижают избыточное мышление и повышают эффективность токенов.

arxiv arXiv cs.LG · 9 д назад

Непараметрический двухвыборочный тест с использованием PReLU-IPM

Исследование вводит PReLU-IPM, новый интегральный показатель вероятности, основанный на нейронном дискриминаторе с одним узлом. Полученный тест PReLU-TST является непараметрическим, согласованным и асимптотически эквивалентным стандартным тестам на основе IPM, демонстрируя более высокую мощность или конкурентную производительность на симулированных и реальных данных.

arxiv arXiv cs.LG · 9 д назад

SPaiK: Масштабируемое обучение парных ядер с помощью статистического обобщенного векторного трюка

SPaiK представляет масштабируемый метод обучения ядер для парных задач с использованием статистического обобщенного векторного трюка (sGVT). Эта инновация снижает вычислительные и памятные требования, позволяя эффективно обучать на больших наборах данных и делает парное обучение ядер возможным для ранее неосуществимых размеров данных.

arxiv arXiv cs.LG · 9 д назад

PACT: Делегирование малого языкового модели для реактивного обучения с подкреплением

PACT объединяет реактивную политику обучения с подкреплением с малой языковой моделью на 2 миллиона параметров для генерации и проверки планов действий. План от малой языковой модели выполняется напрямую, если он подтверждается в симуляции, без необходимости возвращаться к политике обучения с подкреплением и переподготовки. PACT превосходит базовые методы на трёх всё более сложных средах FrozenLake.

arxiv arXiv cs.LG · 9 д назад

После-последовательные операторы ложной фальсификации не улучшают точность в малых моделях кода

Исследование по измерению показало, что 26 семантических после-последовательных операторов не улучшают точность на выделенных данных по сравнению с Best-of-N в замороженных малых моделях кода. Хотя некоторые операторы снижают использование вычислительных ресурсов или восстанавливают правильные программы, ни один из них не превосходит BoN по точности из-за системных ограничений, таких как барьеры покрытия и ловушки консенсуса. Операция восстановления на уровне выражений (M1) улучшает производительность на HumanEval+ на 12 задач, без вреда или утечки, и демонстрирует стабильные результаты на всех ячейках моделей.

arxiv arXiv cs.LG · 9 д назад

Остаточные соединения смягчают проблемы градиентов в глубоких сетях

Исследование использует теорию мультипликативного эргодического для анализа взрывных и исчезающих градиентов в глубоких нейронных сетях. Оно показывает, что остаточные соединения влияют на спектр Ляпунова, как охарактеризовано Фурстенбергом и Кифером, тем самым стабилизируя поток градиентов во время обучения.

arxiv arXiv cs.LG · 9 д назад

ExpRL: Исследовательская RL для среднего обучения LLM

ExpRL вводит новую методику среднего обучения для LLM, используя данные вопрос-ответ, написанные людьми, как основу вознаграждения. Вместо имитации ссылочных решений, она строит специфические для задачи критерии оценки для вознаграждения промежуточных шагов рассуждения, что позволяет лучше инициализировать спарсенные вознаграждения RL и превосходить SFT, спарсенный GRPO и самодистилляцию на задачах математического мышления.

arxiv arXiv cs.LG · 9 д назад

HABC улучшает RL-настройку VLAs с разреженными результатами

Hierarchical Advantage-Weighted Behavior Cloning (HABC) улучшает онлайн-RL-настройку агентов визуально-языковых систем за счёт использования отдельных критических голов для жизнеспособности и эффективности. Оно объединяет их выходы через состояние-адаптивный воротник и применяет веса на переходе, при этом интервенция-ориентированная присвоение кредитов предотвращает утечку контроля. В реальных экспериментах с роботами HABC повышает показатели успеха до 92%, 88% и 38% на трёх бимануальных задачах, превосходя базовые значения SFT на 36%, 44% и 12%.

arxiv arXiv cs.LG · 9 д назад

Геометрическая модель действий для обучения политик роботов

Геометрическая модель действий (GAM) позволяет политикам роботов мыслить о трехмерных физических взаимодействиях, перепрограммируя предобученную геометрическую основную модель. GAM разделяет GFM на наблюдательный кодировщик и предиктор причинно-следственных будущих состояний, затем направляет предсказанные будущие геометрические формы и действия через один и тот же основной слой, обеспечивая точные, устойчивые и эффективные результаты в манипуляции в симуляции и на реальных роботах.

arxiv arXiv cs.LG · 9 д назад

Точная оценка постериорного скоора для линейных обратных задач

В статье получена точная постериорная оценка в закрытой форме для линейных гауссовых обратных задач, что позволяет эффективно осуществлять выборку постериоров с помощью дезактивации. Вводится точная постериорная оценка (EPS), цель обучения, которая сохраняет структуру предобучения и обеспечивает превосходную производительность по метрикам точности, восприятию и распределения с меньшим числом оценок дезактиватора по сравнению с градиентными методами.