Training methods — korshunov.ai

Training methods Страница 1 / 12

Аналитические градиенты политик для эффективного непрерывного управления

Аналитические градиенты политик (APG) обеспечивают точное вычисление градиентов с помощью обратного распространения через симуляцию при дифференцируемых динамических характеристиках среды. APG превосходит Проxимую политическую оптимизацию (PPO) на четырех задачах непрерывного управления, демонстрируя превосходную эффективность по образцам и обучению, благодаря сегментированной схеме обратного распространения, которая снижает деградацию градиентов на задачах с длинными горизонтами.

arxiv arXiv cs.LG · 1 д назад

Оптимизатор Мюон: Сила, пределы и теория речной долины

Новая теория на уровне траектории показывает, что Мюон ускоряется на ранних этапах оптимизации в направлении речной долины, несущей информацию, но медленно сходится вблизи дна, в отличие от градиентного спуска. При наличии импульса ортогонализованные обновления Мюон удаляют остаточную информацию масштаба, что приводит к перескокам и колебаниям. В исследовании предлагается двухэтапный подход — использование Мюон на ранних этапах и переход к оптимизаторам, похожим на градиентный спуск, на поздних этапах — для улучшения производительности обучения больших языковых моделей.

arxiv arXiv cs.LG · 1 д назад

GOMA достигает первого гарантии стохастической сходимости для вариационных неравенств

В статье представлен GOMA, семейство методов первого порядка для монотонных вариационных неравенств. В стохастической ситуации с неограниченной дисперсией упрощённая версия GOMA обеспечивает скорость сходимости O(1/sqrt(k)) по норме квадратного градиента на последнем итерации, без использования методов уменьшения дисперсии или увеличения размеров выборок. Это первый подобный результат для неограниченных стохастических монотонных липшицевых вариационных неравенств.

arxiv arXiv cs.LG · 1 д назад

FAST: Фреймворк для синхронизированного отбора и обучения в параллельном репертуарном обучении

FAST решает проблему неэффективности отбора в репертуарном обучении для автономного вождения, вводя Динамическую параллельную синхронизацию отбора, чтобы отделить завершение эпизода от циклов отбора. Оно обеспечивает ускорение времени выполнения до 1,78 раз по сравнению с базовыми вариантами на одном кадре, при этом сохраняя статистическую непредвзятость за счёт оптимизации маскирования и заполнения.

arxiv arXiv cs.AI · 1 д назад

Аналитические градиенты политик для эффективного управления образцами и обучением

Аналитические градиенты политик (APG) обеспечивают точное вычисление градиентов с помощью обратного распространения через симуляцию при дифференцируемых динамических свойствах среды. APG превосходит Прохимую политическую оптимизацию (PPO) на четырех задачах непрерывного управления, демонстрируя превосходную эффективность по образцам и обучению, благодаря сегментированной схеме обратного распространения, которая снижает деградацию градиентов на задачах с длинными горизонтами.

arxiv arXiv cs.AI · 1 д назад

Глубокое обучение с параллельной временной сложностью O(log N)

Групповое блочное локальное обучение (HBLL) позволяет обучать глубокие нейронные сети за временной сложностью O(log N) в параллельном режиме, устраняя необходимость полного обратного распространения. HBLL разбивает сети на блоки, связанные иерархически, и достигает конкурентоспособных результатов на задачах визуального и языкового понимания, с расширениями на рекуррентные архитектуры.

arxiv arXiv cs.AI · 1 д назад

FAST: Фреймворк для синхронизированного отбора и обучения в параллельном репликационном обучении

FAST решает проблему неэффективности отбора в репликационном обучении для автономного вождения, вводя Динамическую параллельную синхронизацию отбора, чтобы отделить циклы отбора от завершения отдельных эпизодов. Оно обеспечивает ускорение времени выполнения до 1,78 раз по сравнению с базовыми вариантами на одном кадре, при этом сохраняя статистическую непредвзятость за счёт оптимизации маскирования и заполнения.

arxiv arXiv cs.CL · 2 д назад

Модель энергопотребления для обучения трансформаторов

Новый фреймворк моделирует энергопотребление при обучении трансформаторов на нескольких GPU. Он использует сканирование архитектуры BERT для связи измеренного энергопотребления с вычислительными, памятью и коэффициентами эффективности аппаратуры. Модель, вдохновлённая анализом крыши, включает фактор эффективности аппаратуры на основе ускорения и предсказывает энергопотребление при обучении на различных конфигурациях GPU.

arxiv arXiv cs.CL · 2 д назад

Случайный YaRN улучшает обобщение по длине для рассуждений с длинными контекстами

Случайный YaRN улучшает рассуждения с длинными контекстами, комбинируя позиционную экстраполяцию YaRN с случайным позиционным кодированием и куррикулом по длине. Он превосходит стандартную тонкую настройку на бенчмарках, таких как BABILong и MRCR, демонстрируя значительные преимущества на очень далеких от распределения длинах контекстов.

arxiv arXiv cs.CL · 2 д назад

Адаптивное планирование данных улучшает обучение на основе реверсии для больших языковых моделей

Адаптивное планирование данных (ADS) вводит двууровневую систему планирования данных, которая заменяет равномерное выборку на адаптивное распределение по семантическим кластерам и выборку образцов на границах политики. Экспериментальные результаты показывают, что ADS улучшает среднюю точность на 5,2% по сравнению с GRPO при трех больших языковых моделях и семи задачах логического мышления, что демонстрирует его эффективность как универсальной стратегии для постобучения больших языковых моделей на основе реверсии.

arxiv arXiv cs.CL · 2 д назад

Ключевые факторы в RL для логического мышления в LLM раскрыты

Теоретический анализ показывает, что степень off-policy, определяемая количеством градиентных шагов на одну сессию, значительно влияет на коэффициенты важности и доминирование обновления токенов. В исследовании представлено адаптивное обобщение политики оптимизации (ACPO), которое корректирует границы обрезки по вариации групп токенов, превосходя DAPO и CISPO на моделях 3B и 7B по математическим, вопросам-ответам и логическим задачам.

media Hugging Face Forums · 3 д назад

Маломасштабное сравнение отладки OLMo-core с гратом Engram

Сравнение на 200 шагов обучения между базовым моделью OLMo3 600M и версией с гратом Engram в стиле DeepSeek показывает меньшие потери при обучении и оценке, более быстрое стабилизацию нормы градиента и улучшенное поведение на ранних этапах обучения. Грат Engram, введенный в слои 1 и 5, увеличивает количество обучающихся параметров до ~1,7 млрд, но сохраняет лишь увеличение на 40 тыс. активных параметров на токен, что указывает на эффективное использование памяти.

media r/LocalLLaMA · 5 д назад

Бесплатная серия из 15 частей о внутренних аспектах LLM, основанных на Gemma 4 12B

Я написал бесплатную серию из 15 частей, в которой подробно описывается внутренняя структура LLM, используя Gemma 4 12B в качестве основного примера. Каждая часть охватывает технические аспекты от токенизации до предоставления сервиса, с реальными математическими вычислениями, формами тензоров и ограничениями аппаратного обеспечения. Серия включает в себя дополнительный разбор vLLM и полностью доступна без платных стен или требований на электронную почту.

media r/LocalLLaMA · 5 д назад

RTX 5090 MSI потребление энергии и предупреждение о кабеле

RTX 5090 MSI потребляет 475-500 Вт во время инференса или тренировки диффузии. Пользователь отмечает, что не испытывает проблем с кабелем питания, подчеркивая, что его не следует изгибать для обеспечения безопасной и стабильной работы.

media r/LocalLLaMA · 5 д назад

Устранение проблемы с длительными контекстами при декодировании на Radeon R9700 с использованием vLLM 0.22.1

Проблема с производительностью при длительных контекстах на AMD Radeon AI PRO R9700 (RDNA4) была решена в vLLM 0.22.1 путем включения AITER Unified Attention. Исправление включает ослабление гейта CDNA для включения RDNA4, отключение других реализаций внимания и использование KV-кэша в формате bf16, что обеспечивает значительное ускорение при всех длинах контекста. Использование FP8 на этом оборудовании неэффективно, а нативный контекст модели в размере 262K полностью достижим при использовании bf16, обеспечивая ~2.9× параллелизм без необходимости использования FP8.

media r/LocalLLaMA · 6 д назад

EvoTensile: эволюционная настройка ядер AMD Tensile GEMM

EvoTensile использует эволюционные алгоритмы для настройки ядер GEMM для видеокарт AMD, повышая производительность размещения NT с 20 до 40 ТФЛОПС на Strix Halo. Это ускорение представляет собой значительный прогресс по сравнению с неоптимизированными ядрами, хотя и остается ниже теоретического предела в 59,4 ТФЛОПС.

arxiv arXiv cs.AI · 6 д назад

UFP4: Единая 4-битовая тренировка устраняет смещение сжатия в предварительной тренировке больших языковых моделей

Исследование выявляет смещение сжатия в форматах на основе E2M1 FP4 из-за геометрической асимметрии, что приводит к накоплению умножительной ошибки и нестабильности тренировки. Предложенная рецептура UFP4 использует единые сетки E1M2/INT4 и применяет случайный Хадамар-преобразование ко всем операциям GEMM, достигая меньшего снижения потерь по сравнению с базовыми вариантами на основе E2M1 в масштабной предварительной тренировке больших языковых моделей. Авторы рекомендуют E1M2/INT4 как первичный тренировочный примитив для будущих ускорителей.

arxiv arXiv cs.AI · 6 д назад

Переиспользование классификатора речи для генерации на основе диффузии

Предварительно обученный классификатор речи переиспользуется как основа для генерации речи на основе диффузии. При привязке легкого подмодуля и обучении его методом сопоставления сценария устранения шума, подход достигает высокого качества речи при снижении памяти и вычислительных затрат, используя один модель вместо двух отдельно обученных компонентов.

arxiv arXiv cs.AI · 6 д назад

UltraQuant: 4-бит кэширование KV для агентов с большим контекстом

UltraQuant обеспечивает 4-битное кэширование KV для агентов с большим контекстом, снижая время до первого токена на 3,47 раза в поздних раундах и увеличивая пропускную способность вывода на 1,63 раза по сравнению с базовым вариантом FP8 KV. Для достижения этого используется FP8 запросы, FP4 тензоры KV, масштабы группы UE8M0, а также встроенная операция scaled-MFMA на GPU AMD CDNA4, с оптимизациями для ядер декодирования-внимания и надежными выборами, такими как асимметричное обращение K/V и вращение по Walsh-Hadamard.

arxiv arXiv cs.AI · 6 д назад

Калибровка в моделях на основе смеси экспертов при смещении распределения

Эта статья исследует, как модели на основе смеси экспертов сохраняют калибровку при смещении распределения. Авторы показывают, что калибровка на уровне экспертов обеспечивает общую калибровку в моделях с жестким маршрутизацией, но недостаточна для моделей с мягким маршрутизацией. Авторы предлагают противоречивую пересадку, чтобы штрафовать ошибки калибровки в маршрутизированных агрегатах, улучшая баланс между точностью и калибровкой при различных задачах и смещениях.