Training methods — korshunov.ai

Training methods Страница 1 / 15

Кадрово-условная самодистилляция

Кадрово-условная самодистилляция представляет собой рамку, которая использует структурированные критерии для предоставления детализированных, уровня токена обратной связи во время самодистилляции рациональных языковых моделей. При условии учитывания учителей на уровне критериев кадров, достигается более точное присвоение кредитов по сравнению с скалярными вознаграждениями, превосходя GRPO и OPSD на 1,0 и 0,9 пунктов в среднем по научным рациональным тестам.

arxiv arXiv cs.AI · 10 д назад

UBP2: Метод сбалансированного учета неопределенности для эффективного предпочтительного обучения с помощью релевантности

UBP2 представляет модельный метод, который активно исследует среды, объединяя рассуждение о неопределенностях в вознаграждении, динамике и функциях ценности. Он обеспечивает превосходную эффективность в использовании образцов в предпочтительном обучении с помощью релевантности, превосходя как модельные, так и неоптимистичные модельные базовые методы на платформе Meta-World.

arxiv arXiv cs.CL · 10 д назад

STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability

STARE решает проблему коллапса политической энтропии в методах GRPO на основе робастного обучения, определяя подмножества токенов, критичных для энтропии, с помощью квантилей неудивления и пересчитывая их преимущества. Оно обеспечивает стабильность политической энтропии на различных масштабах модели и задач, превосходя DAPO и другие базовые методы на 4%-8% на AIME24 и AIME25, с постоянным балансом между исследованием и эксплуатацией.

arxiv arXiv cs.CL · 10 д назад

Большие языковые Гиббс для структурированного вероятностного вывода

Большие языковые Гиббс используют условные распределения ЛЛМ как операторы перехода для итеративного пересамплирования переменных. Метод обеспечивает вероятностно согласованный структурированный вывод, избегая зависимостей от порядка и достигая стационарного распределения, которое уравновешивает локальные условия. Он демонстрирует практическую эффективность в синтетических распределениях, согласованном мышлении и байесовском обучении структуры.

arxiv arXiv cs.CL · 10 д назад

Кадрово-условная самодистилляция

Кадрово-условная самодистилляция представляет собой рамку, которая использует структурированные критерии для предоставления детализированного, уровня токена обратной связи во время самодистилляции рациональных языковых моделей. С использованием условий для учителей на уровне критериев кадров, достигается более точное назначение кредитов, чем скалярные вознаграждения, и превосходит GRPO и OPSD на 1,0 и 0,9 пунктов в среднем по наукоемким тестам на рациональность.

arxiv arXiv cs.LG · 10 д назад

Skill-MAS: Эволюционная метанавык для автоматических систем многоагентов

Skill-MAS вводит новый подход, который разделяет сохранение опыта от параметрических обновлений, моделируя оркестрацию как эволюционную метанавык. Он использует замкнутый процесс, включающий многотраекторные развертывания и селективное отражение, чтобы выделить повторно используемые принципы стратегии, обеспечивая значительные улучшения производительности и устойчивость при переносе на задачи и LLMs.

arxiv arXiv cs.LG · 10 д назад

TAPO: Самодистилляция с микросоответствующими траекториями

TAPO продвигает самодистилляцию за счёт построения явных микросоответствующих траекторий, которые сохраняют ошибочные рассуждения и включают диагностики на естественном языке. Эти траектории, полученные из правильных и неправильных развертываний модели, обеспечивают тонкие исправления ошибок, основанные на собственных рассуждениях модели, что улучшает как первоначальное рассуждение, так и исправление ошибок по сравнению с GRPO.

arxiv arXiv cs.LG · 10 д назад

REVES: Усиленное обучение для масштабирования на этапе тестирования

REVES представляет двухэтапную итерационную структуру, которая улучшает логическое мышление больших языковых моделей за счёт последовательного пересмотра и проверки. Метод достигает +6,5 баллов по сравнению с базовыми RL и +4,0 баллов по сравнению с стандартным многократным обучением на LiveCodeBench, используя базовую модель размером 4B и меньшее количество итераций, чем большие эволюционные системы. Метод улучшает исправление ошибок и обобщается на задачи за пределами распределения, такие как n_queens и mini_sudoku.

arxiv arXiv cs.LG · 10 д назад

Результаты сложности для устойчивости проверки бинаризированных нейронных сетей

В статье доказывается, что насыщенность бинаризированных нейронных сетей является NP-полной при сведении к SAT. Также показывается, что однородная искажение изображения приводит к структуре выхода, являющейся разрывной функцией, что позволяет проводить проверку устойчивости за полиномиальное время.

arxiv arXiv cs.LG · 10 д назад

GrapNet: Программируемая динамическая архитектура нейронной графы

GrapNet представляет программную нейронную графу, в которой редактирование архитектуры является первоочередной операцией. Оно превосходит плотные MLP на Split Fashion-MNIST и CIFAR-10, достигая роста точности на 63,16% и 3,81% соответственно, с статистически значимыми результатами.

arxiv arXiv cs.LG · 10 д назад

Устойчивый последовательный тест условной независимости

Новый метод вводит адаптивную ставку с керновыми статистиками для проверки условной независимости, снижая инфляцию ошибки первого рода из-за ошибки оценки. Он превосходит существующие последовательные подходы Model-X как в синтетических, так и в реальных задачах справедливости, сохраняя высокую мощность, при этом более устойчив к ошибкам оценки распределения.

arxiv arXiv cs.LG · 10 д назад

FoMoE преодолевает порог полных копий с помощью разделенных экспертных слоев

FoMoE представляет систему, которая распределяет экспертные слои между рабочими узлами, чтобы избежать полных копий модели, снижая затраты на коммуникацию на 1,42 раза по сравнению с базовыми вариантами и на 45,44 раза по сравнению с DDP. Система достигает увеличения производительности до 1,4 раза за счёт механизма пропуска токенов и демонстрирует стабильную маршрутизацию, с прогнозируемыми преимуществами, распространяющимися на модели масштаба 100B, за счёт системного моделирования.

arxiv arXiv cs.LG · 10 д назад

Обучаемый кодировщик речи-спайков для спайковых нейронных сетей

Обучаемый резидуальный кодировщик речи-спайков обучается совместно с рекуррентной сетью с ленивой интеграцией и запуском, достигая точности до 94,97% на тестовом наборе данных Google Speech Commands v2. Версия с 35 тыс. параметров достигает 89,8%, превосходя предыдущие методы при значительно меньшем количестве параметров, и демонстрирует спайковые представления, синхронизированные с задачей, что улучшает разделяемость классов.

arxiv arXiv cs.LG · 10 д назад

Типы вознаграждений в RL повышают устойчивость в кибер-физических системах

Исследование оценивает контроллеры без модели машинного обучения в нелинейных системах при кибератаках. Вознаграждение Ляпунова обеспечивает наилучшую устойчивость с низкой ошибкой отслеживания, в то время как метод Proximal Policy Optimization превосходит Deep Deterministic Policy Gradient по снижению вариации ключевых показателей эффективности.

arxiv arXiv cs.LG · 10 д назад

Структура-первые архитектуры для динамического обучения

Новый парадигм для обучения динамических систем акцентирует внимание на структурном проектировании, а не на нелинейной выразительности. Предложенные волновые динамические единицы используют явные и причинно-следственные взаимодействия для формирования многослойных архитектур, которые демонстрируют иерархическое поведение и информативные внутренние представления, даже при минимальной оптимизации параметров.

arxiv arXiv cs.LG · 10 д назад

Плавность-ориентированная дереандомизация границ PAC-Bayes

Новый подход дереандомизирует границы PAC-Bayes для гладких функций потерь путем анализа разности обобщения класса разности Дженсена с помощью сложности Радемахера. Полученные границы для детерминированных предикторов включают меры плоскости, полученные из джакобианов и гессианов отображения вероятности, и применяются к линейным моделям и гладким нейронным сетям. Предлагается практический регулятор, вычисляемый с использованием складывающих весов BatchNorm, и проверяется на CIFAR-10 при различных размерах батчей.

arxiv arXiv cs.LG · 10 д назад

Wasserstein Policy Learning for Distributional Outcomes

Эта статья вводит офлайн-обучение политик для распределений-значений, где вознаграждения получают из функционалов полезности, применённых к водяным барицентрам. Она устанавливает статистические гарантии с использованием оценок IPW и DR, доказывая конечную выборочную регрет с доминирующим зависимостью \widetilde{\mathcal{O}}(\sqrt{\mathrm{N\text{-}dim}(\Pi)/N}) и предоставляет минимаксную нижнюю границу, подтверждающую острые характеристики этого скорости.

arxiv arXiv cs.LG · 10 д назад

Pareto Q-Learning с машинами вознаграждений

PQLRM — это алгоритм многокритериальной робастной оптимизации, который объединяет Pareto Q-Learning с машинами вознаграждений для обработки не-марковских вознаграждений. Он сходится быстрее, чем базовый PQL на перекрёстных МДП, и генерирует парето-оптимальные политики за пределами возможностей QRM.

arxiv arXiv cs.LG · 10 д назад

CAHP: Комплементарное упрощение голов внимания для эффективных трансформеров

CAHP представляет пост-обработочный фреймворк, который использует теоретические графы и меры информационной теории для выбора комплементарных голов внимания в трансформерах. Он автоматически определяет сохранение голов без предварительного редукционного параметра, выявляет порог ухудшения производительности для обеспечения минимального потерь модели, и превосходит базовые методы в условиях высокой сжатия, сохраняя функционально критически важные головы в промежуточных слоях.

arxiv arXiv cs.CL · 10 д назад

Расстояние-адаптивное представление для внимания

Новое внимание, расстояние-адаптивное представление (DAR), присваивает более богатые представления близким токенам и уменьшает размерность для удалённых. Этот подход обеспечивает полную размерность на всех масштабах моделей и при мелкой настройке, превосходя однородное уменьшение размерности.