Training methods
arxiv arXiv cs.AI · 23 ч назад

Представьте, чтобы обеспечить безопасность в иерархическом обучении с помощью вознаграждения

Метод объединяет обучаемую модель мира с политиками высокого и низкого уровня, чтобы обеспечить безопасное исследование в задачах с длинными горизонтами. Политика высокого уровня направляет исследование к безопасным подцелям, в то время как политика низкого уровня использует воображаемые симуляции, чтобы предотвратить небезопасное поведение, превосходя существующие методы безопасного обучения с помощью вознаграждения по показателю успешности и выполнения ограничений в различных задачах.

arxiv arXiv cs.AI · 23 ч назад

Fed-CausalDiff: Распределённая синхронизация для федеративной моделирования действий

Fed-CausalDiff вводит федеративную причинно-диффузионную архитектуру, которая позволяет проводить моделирование действий в распределённых средах. Она разделяет эволюцию скрытого состояния на глобальные и локальные компоненты, что позволяет обеспечить распределённую синхронизацию для снижения затрат на передачу данных, при сохранении точной оценки политики и оценки эффекта на среду (ATE).

arxiv arXiv cs.AI · 1 д назад

Весовое настройка на-поли-дистилляции решает смещение позиции

На-поли-дистилляция (OPD) страдает от смещения позиции, при котором поздние токены обеспечивают плохую поддержку. Весовая настройка OPD (IW-OPD) присваивает динамические веса на основе расхождения распределений, приоритизируя ранние токены и подавляя поздние. IW-OPD сходится быстрее и достигает до 6,9 точек роста производительности на AIME-2025 по сравнению с стандартной OPD.

arxiv arXiv cs.LG · 1 д назад

Награда-безопасное предобучение для обучения с вознаграждением через максимизацию покрытия состояний

ROVER обеспечивает награду-безопасное предобучение за счет максимизации покрытия состояний в пространстве состояний, используя обученную модель мира для оценки покрытия без оценки плотности или энтропии. Оно вводит виртуальный статус-связи для балансировки исследования известных и неизвестных областей, достигая более равномерного покрытия и лучшей производительности в задачах навигации в табличных и пиксельных форматах.

arxiv arXiv cs.LG · 1 д назад

Центральная предельная теорема для среднего оптимизатора Adam

В статье доказана центральная предельная теорема для среднего оптимизатора Adam, показывающая сходимость порядка n^{-1/2}. Этот порядок совпадает с классическими алгоритмами стохастической аппроксимации, а ковариация выражается через свойства алгоритма в состоянии притяжения.

arxiv arXiv cs.LG · 1 д назад

Кадр BIPC ускоряет оптимизацию смешанных целых чисел с помощью машинного обучения

Кадр BIPC уменьшает время решения для больших смешанных целочисленных программ за счёт выявления подмножества переменных, которые определяют вычислительную сложность. Используя обучение с учителем, он предсказывает значения и интервалы переменных-дверей, затем решает уменьшенную задачу с этими предсказаниями, достигая значительного ускорения с минимальным потерей качества. Это позволяет получать быстрые и качественные решения при возмущениях параметров в реальных системах, таких как энергетика и цепи поставок.

arxiv arXiv cs.LG · 1 д назад

Глубокое обучение с параллельной временной сложностью O(log N)

Гиерархическое блочное локальное обучение (HBLL) позволяет обучать глубокие нейронные сети за временной сложностью O(log N) в параллельном режиме, устраняя необходимость полного обратного распространения. HBLL разбивает сети на гиерархически связанные блоки и достигает конкурентоспособных результатов на задачах визуального и языкового понимания, с расширениями на рекуррентные архитектуры.

arxiv arXiv cs.LG · 1 д назад

Аналитические градиенты политик для эффективного непрерывного управления

Аналитические градиенты политик (APG) обеспечивают точное вычисление градиентов с помощью обратного распространения через симуляцию при дифференцируемых динамических характеристиках среды. APG превосходит Проxимую политическую оптимизацию (PPO) на четырех задачах непрерывного управления, демонстрируя превосходную эффективность по образцам и обучению, благодаря сегментированной схеме обратного распространения, которая снижает деградацию градиентов на задачах с длинными горизонтами.

arxiv arXiv cs.LG · 1 д назад

Оптимизатор Мюон: Сила, пределы и теория речной долины

Новая теория на уровне траектории показывает, что Мюон ускоряется на ранних этапах оптимизации в направлении речной долины, несущей информацию, но медленно сходится вблизи дна, в отличие от градиентного спуска. При наличии импульса ортогонализованные обновления Мюон удаляют остаточную информацию масштаба, что приводит к перескокам и колебаниям. В исследовании предлагается двухэтапный подход — использование Мюон на ранних этапах и переход к оптимизаторам, похожим на градиентный спуск, на поздних этапах — для улучшения производительности обучения больших языковых моделей.

arxiv arXiv cs.LG · 1 д назад

GOMA достигает первого гарантии стохастической сходимости для вариационных неравенств

В статье представлен GOMA, семейство методов первого порядка для монотонных вариационных неравенств. В стохастической ситуации с неограниченной дисперсией упрощённая версия GOMA обеспечивает скорость сходимости O(1/sqrt(k)) по норме квадратного градиента на последнем итерации, без использования методов уменьшения дисперсии или увеличения размеров выборок. Это первый подобный результат для неограниченных стохастических монотонных липшицевых вариационных неравенств.

arxiv arXiv cs.LG · 1 д назад

FAST: Фреймворк для синхронизированного отбора и обучения в параллельном репертуарном обучении

FAST решает проблему неэффективности отбора в репертуарном обучении для автономного вождения, вводя Динамическую параллельную синхронизацию отбора, чтобы отделить завершение эпизода от циклов отбора. Оно обеспечивает ускорение времени выполнения до 1,78 раз по сравнению с базовыми вариантами на одном кадре, при этом сохраняя статистическую непредвзятость за счёт оптимизации маскирования и заполнения.

arxiv arXiv cs.AI · 2 д назад

Аналитические градиенты политик для эффективного управления образцами и обучением

Аналитические градиенты политик (APG) обеспечивают точное вычисление градиентов с помощью обратного распространения через симуляцию при дифференцируемых динамических свойствах среды. APG превосходит Прохимую политическую оптимизацию (PPO) на четырех задачах непрерывного управления, демонстрируя превосходную эффективность по образцам и обучению, благодаря сегментированной схеме обратного распространения, которая снижает деградацию градиентов на задачах с длинными горизонтами.

arxiv arXiv cs.AI · 2 д назад

Глубокое обучение с параллельной временной сложностью O(log N)

Групповое блочное локальное обучение (HBLL) позволяет обучать глубокие нейронные сети за временной сложностью O(log N) в параллельном режиме, устраняя необходимость полного обратного распространения. HBLL разбивает сети на блоки, связанные иерархически, и достигает конкурентоспособных результатов на задачах визуального и языкового понимания, с расширениями на рекуррентные архитектуры.

arxiv arXiv cs.AI · 2 д назад

FAST: Фреймворк для синхронизированного отбора и обучения в параллельном репликационном обучении

FAST решает проблему неэффективности отбора в репликационном обучении для автономного вождения, вводя Динамическую параллельную синхронизацию отбора, чтобы отделить циклы отбора от завершения отдельных эпизодов. Оно обеспечивает ускорение времени выполнения до 1,78 раз по сравнению с базовыми вариантами на одном кадре, при этом сохраняя статистическую непредвзятость за счёт оптимизации маскирования и заполнения.

arxiv arXiv cs.CL · 2 д назад

Модель энергопотребления для обучения трансформаторов

Новый фреймворк моделирует энергопотребление при обучении трансформаторов на нескольких GPU. Он использует сканирование архитектуры BERT для связи измеренного энергопотребления с вычислительными, памятью и коэффициентами эффективности аппаратуры. Модель, вдохновлённая анализом крыши, включает фактор эффективности аппаратуры на основе ускорения и предсказывает энергопотребление при обучении на различных конфигурациях GPU.

arxiv arXiv cs.CL · 2 д назад

Случайный YaRN улучшает обобщение по длине для рассуждений с длинными контекстами

Случайный YaRN улучшает рассуждения с длинными контекстами, комбинируя позиционную экстраполяцию YaRN с случайным позиционным кодированием и куррикулом по длине. Он превосходит стандартную тонкую настройку на бенчмарках, таких как BABILong и MRCR, демонстрируя значительные преимущества на очень далеких от распределения длинах контекстов.

arxiv arXiv cs.CL · 2 д назад

Адаптивное планирование данных улучшает обучение на основе реверсии для больших языковых моделей

Адаптивное планирование данных (ADS) вводит двууровневую систему планирования данных, которая заменяет равномерное выборку на адаптивное распределение по семантическим кластерам и выборку образцов на границах политики. Экспериментальные результаты показывают, что ADS улучшает среднюю точность на 5,2% по сравнению с GRPO при трех больших языковых моделях и семи задачах логического мышления, что демонстрирует его эффективность как универсальной стратегии для постобучения больших языковых моделей на основе реверсии.

arxiv arXiv cs.CL · 2 д назад

Ключевые факторы в RL для логического мышления в LLM раскрыты

Теоретический анализ показывает, что степень off-policy, определяемая количеством градиентных шагов на одну сессию, значительно влияет на коэффициенты важности и доминирование обновления токенов. В исследовании представлено адаптивное обобщение политики оптимизации (ACPO), которое корректирует границы обрезки по вариации групп токенов, превосходя DAPO и CISPO на моделях 3B и 7B по математическим, вопросам-ответам и логическим задачам.

media Hugging Face Forums · 3 д назад

Маломасштабное сравнение отладки OLMo-core с гратом Engram

Сравнение на 200 шагов обучения между базовым моделью OLMo3 600M и версией с гратом Engram в стиле DeepSeek показывает меньшие потери при обучении и оценке, более быстрое стабилизацию нормы градиента и улучшенное поведение на ранних этапах обучения. Грат Engram, введенный в слои 1 и 5, увеличивает количество обучающихся параметров до ~1,7 млрд, но сохраняет лишь увеличение на 40 тыс. активных параметров на токен, что указывает на эффективное использование памяти.

media r/LocalLLaMA · 5 д назад

Бесплатная серия из 15 частей о внутренних аспектах LLM, основанных на Gemma 4 12B

Я написал бесплатную серию из 15 частей, в которой подробно описывается внутренняя структура LLM, используя Gemma 4 12B в качестве основного примера. Каждая часть охватывает технические аспекты от токенизации до предоставления сервиса, с реальными математическими вычислениями, формами тензоров и ограничениями аппаратного обеспечения. Серия включает в себя дополнительный разбор vLLM и полностью доступна без платных стен или требований на электронную почту.