Training methods
arxiv arXiv cs.AI · 1 д назад

Весовое настройка на-поли-дистилляции решает смещение позиции

На-поли-дистилляция (OPD) страдает от смещения позиции, при котором поздние токены обеспечивают плохую поддержку. Весовая настройка OPD (IW-OPD) присваивает динамические веса на основе расхождения распределений, приоритизируя ранние токены и подавляя поздние. IW-OPD сходится быстрее и достигает до 6,9 точек роста производительности на AIME-2025 по сравнению с стандартной OPD.

arxiv arXiv cs.LG · 1 д назад

Награда-безопасное предобучение для обучения с вознаграждением через максимизацию покрытия состояний

ROVER обеспечивает награду-безопасное предобучение за счет максимизации покрытия состояний в пространстве состояний, используя обученную модель мира для оценки покрытия без оценки плотности или энтропии. Оно вводит виртуальный статус-связи для балансировки исследования известных и неизвестных областей, достигая более равномерного покрытия и лучшей производительности в задачах навигации в табличных и пиксельных форматах.

arxiv arXiv cs.LG · 1 д назад

Центральная предельная теорема для среднего оптимизатора Adam

В статье доказана центральная предельная теорема для среднего оптимизатора Adam, показывающая сходимость порядка n^{-1/2}. Этот порядок совпадает с классическими алгоритмами стохастической аппроксимации, а ковариация выражается через свойства алгоритма в состоянии притяжения.

arxiv arXiv cs.LG · 1 д назад

Кадр BIPC ускоряет оптимизацию смешанных целых чисел с помощью машинного обучения

Кадр BIPC уменьшает время решения для больших смешанных целочисленных программ за счёт выявления подмножества переменных, которые определяют вычислительную сложность. Используя обучение с учителем, он предсказывает значения и интервалы переменных-дверей, затем решает уменьшенную задачу с этими предсказаниями, достигая значительного ускорения с минимальным потерей качества. Это позволяет получать быстрые и качественные решения при возмущениях параметров в реальных системах, таких как энергетика и цепи поставок.

arxiv arXiv cs.LG · 1 д назад

Глубокое обучение с параллельной временной сложностью O(log N)

Гиерархическое блочное локальное обучение (HBLL) позволяет обучать глубокие нейронные сети за временной сложностью O(log N) в параллельном режиме, устраняя необходимость полного обратного распространения. HBLL разбивает сети на гиерархически связанные блоки и достигает конкурентоспособных результатов на задачах визуального и языкового понимания, с расширениями на рекуррентные архитектуры.

arxiv arXiv cs.LG · 1 д назад

Аналитические градиенты политик для эффективного непрерывного управления

Аналитические градиенты политик (APG) обеспечивают точное вычисление градиентов с помощью обратного распространения через симуляцию при дифференцируемых динамических характеристиках среды. APG превосходит Проxимую политическую оптимизацию (PPO) на четырех задачах непрерывного управления, демонстрируя превосходную эффективность по образцам и обучению, благодаря сегментированной схеме обратного распространения, которая снижает деградацию градиентов на задачах с длинными горизонтами.

arxiv arXiv cs.LG · 1 д назад

Оптимизатор Мюон: Сила, пределы и теория речной долины

Новая теория на уровне траектории показывает, что Мюон ускоряется на ранних этапах оптимизации в направлении речной долины, несущей информацию, но медленно сходится вблизи дна, в отличие от градиентного спуска. При наличии импульса ортогонализованные обновления Мюон удаляют остаточную информацию масштаба, что приводит к перескокам и колебаниям. В исследовании предлагается двухэтапный подход — использование Мюон на ранних этапах и переход к оптимизаторам, похожим на градиентный спуск, на поздних этапах — для улучшения производительности обучения больших языковых моделей.

arxiv arXiv cs.LG · 1 д назад

GOMA достигает первого гарантии стохастической сходимости для вариационных неравенств

В статье представлен GOMA, семейство методов первого порядка для монотонных вариационных неравенств. В стохастической ситуации с неограниченной дисперсией упрощённая версия GOMA обеспечивает скорость сходимости O(1/sqrt(k)) по норме квадратного градиента на последнем итерации, без использования методов уменьшения дисперсии или увеличения размеров выборок. Это первый подобный результат для неограниченных стохастических монотонных липшицевых вариационных неравенств.

arxiv arXiv cs.LG · 1 д назад

FAST: Фреймворк для синхронизированного отбора и обучения в параллельном репертуарном обучении

FAST решает проблему неэффективности отбора в репертуарном обучении для автономного вождения, вводя Динамическую параллельную синхронизацию отбора, чтобы отделить завершение эпизода от циклов отбора. Оно обеспечивает ускорение времени выполнения до 1,78 раз по сравнению с базовыми вариантами на одном кадре, при этом сохраняя статистическую непредвзятость за счёт оптимизации маскирования и заполнения.

arxiv arXiv cs.AI · 2 д назад

Аналитические градиенты политик для эффективного управления образцами и обучением

Аналитические градиенты политик (APG) обеспечивают точное вычисление градиентов с помощью обратного распространения через симуляцию при дифференцируемых динамических свойствах среды. APG превосходит Прохимую политическую оптимизацию (PPO) на четырех задачах непрерывного управления, демонстрируя превосходную эффективность по образцам и обучению, благодаря сегментированной схеме обратного распространения, которая снижает деградацию градиентов на задачах с длинными горизонтами.

arxiv arXiv cs.AI · 2 д назад

Глубокое обучение с параллельной временной сложностью O(log N)

Групповое блочное локальное обучение (HBLL) позволяет обучать глубокие нейронные сети за временной сложностью O(log N) в параллельном режиме, устраняя необходимость полного обратного распространения. HBLL разбивает сети на блоки, связанные иерархически, и достигает конкурентоспособных результатов на задачах визуального и языкового понимания, с расширениями на рекуррентные архитектуры.

arxiv arXiv cs.AI · 2 д назад

FAST: Фреймворк для синхронизированного отбора и обучения в параллельном репликационном обучении

FAST решает проблему неэффективности отбора в репликационном обучении для автономного вождения, вводя Динамическую параллельную синхронизацию отбора, чтобы отделить циклы отбора от завершения отдельных эпизодов. Оно обеспечивает ускорение времени выполнения до 1,78 раз по сравнению с базовыми вариантами на одном кадре, при этом сохраняя статистическую непредвзятость за счёт оптимизации маскирования и заполнения.

arxiv arXiv cs.CL · 2 д назад

Модель энергопотребления для обучения трансформаторов

Новый фреймворк моделирует энергопотребление при обучении трансформаторов на нескольких GPU. Он использует сканирование архитектуры BERT для связи измеренного энергопотребления с вычислительными, памятью и коэффициентами эффективности аппаратуры. Модель, вдохновлённая анализом крыши, включает фактор эффективности аппаратуры на основе ускорения и предсказывает энергопотребление при обучении на различных конфигурациях GPU.

arxiv arXiv cs.CL · 2 д назад

Случайный YaRN улучшает обобщение по длине для рассуждений с длинными контекстами

Случайный YaRN улучшает рассуждения с длинными контекстами, комбинируя позиционную экстраполяцию YaRN с случайным позиционным кодированием и куррикулом по длине. Он превосходит стандартную тонкую настройку на бенчмарках, таких как BABILong и MRCR, демонстрируя значительные преимущества на очень далеких от распределения длинах контекстов.

arxiv arXiv cs.CL · 2 д назад

Адаптивное планирование данных улучшает обучение на основе реверсии для больших языковых моделей

Адаптивное планирование данных (ADS) вводит двууровневую систему планирования данных, которая заменяет равномерное выборку на адаптивное распределение по семантическим кластерам и выборку образцов на границах политики. Экспериментальные результаты показывают, что ADS улучшает среднюю точность на 5,2% по сравнению с GRPO при трех больших языковых моделях и семи задачах логического мышления, что демонстрирует его эффективность как универсальной стратегии для постобучения больших языковых моделей на основе реверсии.

arxiv arXiv cs.CL · 2 д назад

Ключевые факторы в RL для логического мышления в LLM раскрыты

Теоретический анализ показывает, что степень off-policy, определяемая количеством градиентных шагов на одну сессию, значительно влияет на коэффициенты важности и доминирование обновления токенов. В исследовании представлено адаптивное обобщение политики оптимизации (ACPO), которое корректирует границы обрезки по вариации групп токенов, превосходя DAPO и CISPO на моделях 3B и 7B по математическим, вопросам-ответам и логическим задачам.

media Hugging Face Forums · 3 д назад

Маломасштабное сравнение отладки OLMo-core с гратом Engram

Сравнение на 200 шагов обучения между базовым моделью OLMo3 600M и версией с гратом Engram в стиле DeepSeek показывает меньшие потери при обучении и оценке, более быстрое стабилизацию нормы градиента и улучшенное поведение на ранних этапах обучения. Грат Engram, введенный в слои 1 и 5, увеличивает количество обучающихся параметров до ~1,7 млрд, но сохраняет лишь увеличение на 40 тыс. активных параметров на токен, что указывает на эффективное использование памяти.

media r/LocalLLaMA · 5 д назад

Бесплатная серия из 15 частей о внутренних аспектах LLM, основанных на Gemma 4 12B

Я написал бесплатную серию из 15 частей, в которой подробно описывается внутренняя структура LLM, используя Gemma 4 12B в качестве основного примера. Каждая часть охватывает технические аспекты от токенизации до предоставления сервиса, с реальными математическими вычислениями, формами тензоров и ограничениями аппаратного обеспечения. Серия включает в себя дополнительный разбор vLLM и полностью доступна без платных стен или требований на электронную почту.

media r/LocalLLaMA · 5 д назад

RTX 5090 MSI потребление энергии и предупреждение о кабеле

RTX 5090 MSI потребляет 475-500 Вт во время инференса или тренировки диффузии. Пользователь отмечает, что не испытывает проблем с кабелем питания, подчеркивая, что его не следует изгибать для обеспечения безопасной и стабильной работы.

media r/LocalLLaMA · 5 д назад

Устранение проблемы с длительными контекстами при декодировании на Radeon R9700 с использованием vLLM 0.22.1

Проблема с производительностью при длительных контекстах на AMD Radeon AI PRO R9700 (RDNA4) была решена в vLLM 0.22.1 путем включения AITER Unified Attention. Исправление включает ослабление гейта CDNA для включения RDNA4, отключение других реализаций внимания и использование KV-кэша в формате bf16, что обеспечивает значительное ускорение при всех длинах контекста. Использование FP8 на этом оборудовании неэффективно, а нативный контекст модели в размере 262K полностью достижим при использовании bf16, обеспечивая ~2.9× параллелизм без необходимости использования FP8.