Training methods
arxiv arXiv cs.AI · 2 д назад

Децентрализованное автономное управление движением с помощью коридорных сетей

В данном исследовании рассматривается недостаточность централизованного управления для высокоструктурированного трафика автономных летательных аппаратов путем предложения децентрализованного подхода, использующего многоагентное обучение с подкреплением (MARL). Исследователи расширяют эту рамку MARL для управления потоком трафика в сложных сетях воздушных коридоров, включающих слияния и разветвления. Политики, обученные в условиях одного коридора, тестируются в increasingly сложных многокоридорных сценариях нулевым способом (zero-shot) без повторного обучения. Экспериментальные результаты показывают, что изученное поведение эффективно переносится на различные плотности трафика, геометрии сетей и гетерогенные характеристики летательных аппаратов. Оценка измеряет производительность системы на уровне сети через соблюдение границ, показатели завершения, средние скорости, пройденное расстояние и межвоздушное расстояние. Несмотря на то, что требуется только локально скоординированное поведение входа, прохождения и выхода, коллективные действия создают желаемые потоки трафика по всей коридорной сети.

arxiv arXiv cs.AI · 3 д назад

SPIRAL: Обучение поиску и агрегации

Авторы представляют Sequential-Parallel-Aggregative Reinforcement Learning (SPIRAL) — фреймворк, который обучает языковые модели одновременно использовать последовательные, параллельные и агрегативные примитивы рассуждений. В отличие от стандартных методов постобучения, оптимизирующих только однопоточное последовательное рассуждение, SPIRAL объединяет эти компоненты в единый конвейер вычислений при выводе. Модель сначала генерирует независимые трассы параллельно с использованием цепочки мыслей (chain-of-thought), а затем формирует итоговую агрегативную трассу на основе этих входных данных. Весь этот процесс оптимизируется сквозным образом по отношению к награде итогового агрегированного ответа с помощью методов обучения с подкреплением для множеств и стандартных техник обучения с подкреплением. Эксперименты на задачах рассуждения демонстрируют, что SPIRAL эффективно масштабируется вместе с ресурсами вычислений при выводе. Подход превосходит GRPO по эффективности масштабирования до 11 раз и достигает на 15% более высокой производительности, когда масштабируются все три примитива вычислений.

arxiv arXiv cs.AI · 3 д назад

Двустороннее обучение позволяет обеспечить линейную связность режимов для трансформеров с миллиардами параметров

Исследователи предлагают масштабируемую структуру, обеспечивающую объединение на основе линейной связности режимов для предварительно обученных трансформеров с миллиардами параметров. Существующие методы обычно оптимизируют пути интерполяции только от одной конечной точки модели, что ограничивает масштабируемость для крупных архитектур. Новый подход применяет параметризованные преобразования весов для согласования функционально эквивалентных решений и использует процедуру двустороннего обучения, при которой обе модели совместно обучаются преобразованиям к общему пути. Эта двунаправленная оптимизация существенно снижает барьеры интерполяции и повышает надежность объединения в масштабе крупных моделей. Эмпирически метод достигает почти нулевых барьеров потерь на датасете WikiText для языковых моделей среднего размера. В задачах компьютерного зрения ViT-L сохраняет точность ImageNet top-1 выше 69% на протяжении всего пути интерполяции. Современные большие языковые модели (LLM) с миллиардами параметров демонстрируют лишь небольшие барьеры потерь при использовании этой техники.

arxiv arXiv cs.AI · 3 д назад

RECALL: Активное пожизненное обучение для моделей Vision-Language-Action

В статье представлен RECALL — активная парадигма непрерывного обучения для моделей Vision-Language-Action (VLA), которая устраняет неэффективности пассивного обучения с подражанием. В отличие от традиционных методов, требующих отказов робота для инициирования сбора данных, данный подход использует демонстрации восстановления, направляемые неопределённостью, для проактивного выявления состояний, нуждающихся в надзоре. Авторы демонстрируют, что такой целевой сбор данных приводит к более эффективной донастройке по сравнению с пассивно собранными демонстрациями. Однако исследование показывает, что донастройка исключительно на этих активных данных восстановления вызывает катастрофическое забывание ранее изученных поведений. Для смягчения этой проблемы в работе оцениваются техники непрерывного обучения, такие как смешивание данных на основе воспроизведения и эластичная консолидация весов. Эти эксперименты подчеркивают критические компромиссы между пластичностью для новых задач и сохранением существующих возможностей в авторегрессионных VLA. В конечном итоге исследование устанавливает, что, хотя восстановление, направляемое неопределённостью, повышает эффективность адаптации, интеграция целевых новых данных в крупные роботизированные политики представляет значительные открытые проблемы.

media Hugging Face Forums · 3 д назад

Обсуждение экономически эффективной донастройки малых языковых моделей в 2026 году

Недавнее обсуждение на форумах Hugging Face исследует наиболее эффективные методы настройки малых ИИ-моделей для конкретных задач. Поток сообщений, озаглавленный «Какой самый экономически эффективный способ донастроить малую языковую модель в 2026 году?», направлен на поиск советов по минимизации расходов при сохранении производительности. Он был инициирован одним участником, стремящимся оптимизировать свой рабочий процесс для специализированных приложений. Этот запрос подчеркивает растущий интерес к использованию меньших моделей для снижения вычислительных накладных расходов. Участникам предлагается делиться стратегиями, которые балансируют между стоимостью и эффективностью в текущих условиях. Эта тема отражает постоянные усилия по повышению доступности и снижению стоимости адаптации моделей.

arxiv arXiv cs.AI · 3 д назад

Обучение процессным наградам через сопоставление частоты посещения состояний для эффективного обучения с подкреплением

Авторы решают задачу обучения политик обучения с подкреплением (RL) при наличии изначально разреженных наград за результат, что приводит к сложным проблемам распределения ответственности. Они предлагают метод преобразования этих разреженных наград в плотные процессные награды путем обучения дискриминатора для различения успешных и неуспешных эпизодов. Этот дискриминатор стимулирует политику совпадать с частотой посещения состояний-действий успешных эпизодов, избегая при этом тех, что характерны для неуспешных. Предоставляя плотную обратную связь о прогрессе в выполнении задачи, подход доказуемо достигает этой цели без изменения оптимальной политики. Метод специально применяется к дообучению политик управления роботами для задач манипуляции. Экспериментальные результаты демонстрируют значительно более быстрое выполнение этапа дообучения RL как в симулированных, так и в реальных средах по сравнению с простой максимизацией разреженных наград за результат.

arxiv arXiv cs.AI · 3 д назад

Сужающиеся языковые модели: повышение производительности за счёт распределения ёмкости с учётом глубины

Современные языковые модели обычно распределяют параметры равномерно по идентичным слоям, несмотря на доказательства того, что последующие слои в основном уточняют остаточный поток (residual stream), а не преобразуют его. Чтобы устранить эту асимметрию, исследователи изучили вопрос о том, должна ли параметрическая ёмкость варьироваться в зависимости от глубины при фиксированном бюджете. Контролируемые эксперименты показали, что распределение большей части ёмкости на ранние слои и меньшей — на поздние улучшает перплексность по сравнению с базовыми вариантами с равномерным распределением, тогда как обратное распределение ухудшает производительность. Опираясь на эти результаты, авторы представляют Сужающиеся языковые модели (TLMs), архитектурный принцип, согласно которому компоненты, содержащие параметры, монотонно сужаются по глубине. Многослойные персептроны (MLP) служат основным местом для этой реализации из-за их доминирования в количестве параметров и чёткой оси ширины. В исследовании тестировалось сужение с помощью плавного косинусного графика на трёх масштабах моделей и четырёх архитектурах, включая Transformer, Gated Attention, Hope-attention и Titans. Результаты показывают, что TLMs последовательно улучшают перплексность и результаты в downstream-бенчмарках по сравнению с базовыми вариантами с равномерным распределением без дополнительных вычислительных затрат. Эти выводы устанавливают распределение ёмкости с учётом глубины как простой, не зависящий от архитектуры рычаг

arxiv arXiv cs.AI · 3 д назад

Челлендж NVIDIA Nemotron: Строковое сопоставление и возврат с откатом для головоломок манипуляции битами

В данной статье подробно описываются алгоритмические инновации, разработанные для Челленджа рассуждений модели NVIDIA Nemotron, направленные на решение головоломок манипуляции битами, в которых модели необходимо выявлять скрытые логические правила. Чтобы справиться с комбинаторным взрывом побитовых операций и галлюцинациями больших языковых моделей (LLM), авторы отказываются от арифметической логики в пользу строкового сходства и структурированного поиска. Основная вклад заключается в переосмыслении вывода логических вентилей как задачи выбора базиса с использованием минимального числа переворотов битов для изоляции примитивных преобразований. Процесс обратного поиска с откатом (backtracking) по методу глубинного первого поиска формализован для проверки кандидатов, обнаружения логических коллизий и выполнения надежного восстановления ошибок. Кроме того, метод использует побитовую токенизацию и интерактивное рассуждение, дообученное с учителем (SFT), с динамическим маскированием для симуляции обратной связи от оракула. При оценке на этих головоломках подход достиг точности валидации более 96%. Это достижение обеспечило лучший результат в категории и седьмое место в общем зачете конкурса.

arxiv arXiv cs.AI · 3 д назад

Открытая проблема: Эффективен ли AdamW при тяжелохвостом шуме?

AdamW является стандартным оптимизатором для обучения больших языковых моделей, однако его теоретическая база в значительной степени ограничена режимами с конечной дисперсией. Этот пробел существенен, поскольку эмпирические данные свидетельствуют о том, что шум стохастического градиента при предварительном обучении LLM обычно обладает тяжелохвостыми характеристиками. Недавние исследования показали, что оптимизаторы, основанные на знаке, такие как Lion и Muon, достигают острых скоростей сходимости в условиях тяжелого хвоста, а также что AdaGrad сходится в этой постановке. Однако строгая теория сходимости для AdamW еще не была установлена в рамках этих предположений о тяжелом хвосте. Авторы формулируют открытую проблему относительно того, может ли AdamW сходиться при тех же предположениях о тяжелом хвосте или же его аккумулятор второго момента создает реальное препятствие. Для решения этой задачи они разрабатывают положительный взвешенный метрический бенчмарк и предлагают механизм нижней границы коридора. Этот механизм демонстрирует, как память знаменателя в AdamW может эффективно скрывать большие градиенты, потенциально влияя на его производительность.

arxiv arXiv cs.LG · 3 д назад

Согласование многообразий кодировщика и декодера для идемпотентной генерации

Недавние парадигмы обучения стремятся обеспечить идемпотентность в генеративных моделях, гарантируя, что повторное применение оставляет выборки неизменными на целевом многообразии данных. Однако многие существующие подходы не достигают точных неподвижных точек, что приводит к нестабильности и дрейфу при повторном применении. Авторы выявляют геометрическое несоответствие между многообразиями кодировщика и декодера как основную причину этого сбоя. Для его устранения они предлагают фреймворк обучения, который явно согласовывает геометрию обоих компонентов для изучения согласованных представлений одного и того же базового многообразия данных. Это согласование способствует стабильным проекциям и значительно снижает ошибку идемпотентности по сравнению с предыдущими методами. Эмпирические результаты демонстрируют, что подход последовательно генерирует идентичные выходные данные при повторном применении как для задач генерации изображений, так и для их редактирования. Кроме того, обеспечение такого типа идемпотентности улучшает сохранение идентичности и стабильность информации в генеративных моделях.

arxiv arXiv cs.LG · 3 д назад

Первый анализ конечного времени для классического Adam в негладкой невыпуклой оптимизации

В данном исследовании представлен первый анализ сходимости за конечное время для классического оптимизатора Adam, конкретно рассматривающий его поведение в условиях негладкой невыпуклой оптимизации. Предыдущие исследования либо игнорировали член коррекции смещения Adam, либо требовали дополнительных модификаций алгоритма, таких как обрезка (clipping), оставляя гарантии оригинального метода неясными. Авторы используют框架 преобразования Online-to-Nonconvex для доказательства того, что случайным образом масштабированный темп обучения обеспечивает скорость сходимости $1/T^{\frac{2}{13}}$. Этот теоретический результат имеет важное значение, поскольку он применим к современному режиму тяжелых хвостов шума, который более точно отражает практические условия обучения. Кроме того, анализ устанавливает сходимость при выборе параметров, где $β_1=β_2$, что согласуется с недавними эмпирическими наблюдениями. Эти результаты дают строгое объяснение эффективности Adam в реальных сценариях, которые ранее адекватно не описывались теориями гладкой оптимизации.

arxiv arXiv cs.LG · 3 д назад

Синки внимания и коллапс — универсальные следствия маршрутизации на основе контента

Исследование демонстрирует, что синки внимания, коллапс представлений и стратификация норм не являются уникальными для архитектур трансформеров, а представляют собой неотъемлемые следствия маршрутизации на основе контента при фиксированной метрике сходства. Устанавливается тождество, показывающее, что функции внимания softmax выступают в качестве агрегации с весами Больцмана по евклидовым расстояниям при постоянных нормах ключей, делая их нечувствительными к величине ключа из-за отсутствия специфического нормировочного члена. Эта рамка предсказывает, что любой маршрутизатор, использующий метрику, плохо согласованную с его представлениями, будет компенсировать это путем концентрации маршрутизации и коллапса маршрутизируемых представлений. Авторы проверяют эту гипотезу на разнообразных моделях, включая девять предварительно обученных трансформеров, графовые сети внимания, модели селективного пространственного состояния, рекуррентные миксеры и обучаемые остаточные слои. Экспериментальные результаты подтверждают, что все протестированные архитектуры демонстрируют этот идентичный признак коллапса независимо от их конкретной области или структуры. Кроме того, аблиационные исследования внутри модели выделяют механизм маршрутизации как основную причину, а не случайные динамики обучения. Показано, что начало этого явления зависит от силы позиционного тормоза, сопровождающего контентный счет, что может смещать эффект в пределах его диапазона. Однако лежащий в основе механизм остается и

arxiv arXiv cs.CL · 3 д назад

Коллапс многошагового использования инструментов в RL и надзорные исправления

Недавние методы агентного обучения с подкреплением для больших языковых моделей часто страдают от нестабильности или ограниченного прироста в задачах использования инструментов. Эксперименты показывают, что некоторые модели испытывают катастрофический коллапс, при котором производительность резко падает, а структуры вызова инструментов перестают работать. Анализ показывает, что эти сбои возникают из-за неожиданных скачков вероятности для определенных управляющих токенов, которые нарушают структурированное выполнение. Несмотря на это нарушение, базовая способность использовать инструменты сохраняется, но маскируется специфическими проблемами форматирования. Для решения этой проблемы исследование изучает разнообразные сигналы надзора, включая внеполитический надзор и руководство на основе подсказок в различных схемах обучения. Авторы обнаруживают, что чередование контролируемой тонкой настройки с обучением с подкреплением существенно улучшает стабильность во время обучения. Однако этот подход демонстрирует ухудшение производительности при оценке на данных формата и содержания вне распределения (out-of-distribution). Результаты подчеркивают важность понимания сбоев в RL для обеспечения надежного обучения сложных задач многошагового использования инструментов.

arxiv arXiv cs.CL · 3 д назад

Естественное забывание: асимметричный контроль того, какие правила переживают препетрен

Исследование выявило феномен «естественного забывания» (natural ungrokking), при котором небольшие языковые модели теряют изученные грамматические правила на полпути препетрена, несмотря на то, что доказательства их существования остаются в данных. Исследователи наблюдали, как модель, обучающаяся согласованию местоимений и рода с Sue, упала с точности 0,94 до уровня, близкого к нулю, к шагу 3500 без какого-либо соответствующего всплеска на кривой функции потерь. Выживание этих правил определяется частотой поддержки в обучающей выборке, тогда как отношение данных к параметрам лишь модулирует глубину падения. Эта динамика возникновения и последующего коллапса была воспроизведена на нескольких корпусах, бюджетах и начальных условиях (seeds) и подтверждена на публичных контрольных точках Pythia, где глубина коллапса коррелировала с масштабом модели. Процесс забывания действует как механизм вытеснения, при котором конкурирующий поверхностный паттерн побеждает правило, заставляя маржу логарифмической вероятности пересечь ноль в течение 100 шагов после поведенческого отказа. Контроль над этой судьбой асимметричен: хотя введение контрдоказательств может уничтожить правила посредством монотонной зависимости «доза-эффект», восстановление поддержки даже на уровне, в 450 раз превышающем поддерживающий уровень, не позволяет их восстановить.

arxiv arXiv cs.CL · 3 д назад

iLLaDA: 8-миллиардная языковая модель с маскированной диффузией и полностью двунаправленным вниманием

Авторы представляют iLLaDA, 8-миллиардную языковую модель с маскированной диффузией, обученную с нуля с использованием полностью двунаправленного внимания. Этот подход контрастирует с преобладающим авторегрессионным факторизацией и каузальным вниманием, используемыми в современных больших языковых моделях. Предобучение модели масштабировалось до 12 триллионов токенов, за которыми последовало контролируемое тонкое настраивание (supervised fine-tuning) на корпусе инструкций объемом 25 миллиардов токенов в течение 12 эпох. iLLaDA сохраняет цель маскированной диффузии на обоих этапах обучения и использует генерацию переменной длины для повышения эффективности. Она также внедряет оценку на основе уверенности для улучшения результатов на задачах многократного выбора. Результаты бенчмарков показывают значительные улучшения по сравнению с ее предшественником, LLaDA, включая прирост на 21,6 балла на BBH и на 14,9 балла на ARC-Challenge для базовой модели. Вариант с инструкционным тонким настраиванием достиг увеличения на 14,5 балла на MATH и на 16,5 балла на HumanEval. Несмотря на неавторегрессионную природу, iLLaDA остается конкурентоспособной с Qwen2.5 7B по нескольким метрикам.

arxiv arXiv cs.CL · 3 д назад

Проектирование инструментальных обвязок и постобучение агентов на основе больших языковых моделей

В статье рассматривается влияние проектирования инструментальных обвязок (tool harness design) на постобучение агентов на основе больших языковых моделей. Утверждается, что хотя агенты регулярно проходят постобучение, каркас, определяющий воздействие инструментов, часто рассматривается как фиксированная деталь. Существующие алгоритмы обычно предполагают статические среды, игнорируя изменения в инструментах и задачах во время развертывания. Чтобы восполнить этот пробел, авторы расширили ALFWorld, чтобы рассматривать проектирование обвязки как управляемый параметр. Это расширение поддерживает оценку при сдвигах как в среде задач, так и в среде инструментов. В исследовании систематически анализируется влияние обвязки на постобучение в условиях распределений внутри выборки (in-distribution) и вне выборки (out-of-distribution). Результаты показывают, что постобучение с учетом характеристик обвязки улучшает производительность и обеспечивает надежную адаптацию к новым средам. Напротив, минимальные усилия по проектированию приводят к резкому падению производительности при сильных сдвигах среды.

arxiv arXiv cs.CL · 3 д назад

BiPACE: Оптимизация политики с учётом бисимуляции и контрфактическая оценка действий для агентов на основе больших языковых моделей

Авторы выявляют фундаментальное несоответствие в распределении заслуг между состоянием и действием при пошаговом групповом обучении с подкреплением (RL) для длинногоризонтных агентов на основе больших языковых моделей (LLM). Существующие оценщики страдают от чрезмерно детального разбиения по состояниям и грубого усреднения по действиям, что нарушает допущения эквивалентности при распределении заслуг. Предлагается BiPACE — встроенный оценщик преимущества, устраняющий эти проблемы без добавления критиков или дополнительных проходов (rollouts). Он группирует шаги на основе косинусного расстояния в геометрии скрытых состояний актора, чтобы уменьшить количество одиночных групп, и центрирует награды с использованием базовых линий, зависящих от действия. В задаче ALFWorld с моделью Qwen2.5-7B BiPACE_Q повышает успешность на валидации с 90,8 до 97,1±0,9, преодолевая порог в 95% при каждом начальном зерне (seed). Он также улучшает результаты для Qwen2.5-1.5B и демонстрирует прирост производительности на WebShop и TextCraft по сравнению с GRPO и GiGPO. Метод добавляет лишь 11,3% накладных расходов к времени выполнения одного шага обучения, изменяя единицу сравнения на приближённое поведенческое эквивалентность.

arxiv arXiv cs.CL · 3 д назад

OPERA: Согласование открытого рассуждения посредством объективного обучения с подкреплением на основе перплексии

Фреймворк OPERA решает проблему нестабильности применения обучения с подкреплением к задачам с открытым ответом, заменяя внешние модели-судьи внутренними наградами, полученными из динамики перплексии. Этот подход количественно оценивает снижение неопределенности в критических состояниях рефлексии, устраняя стилистические смещения и позиционные несоответствия, характерные для систем LLM-as-a-judge. На этапе холодного старта метод использует направляющие слова для синтеза разнообразных цепочек рассуждений и применяет роллауты с приоритетом по перплексии для выявления логически согласованных ветвей. Этот конвейер генерирует крупномасштабный набор данных из 20 000 высококачественных траекторий рассуждения для обучения. Внедрение OPERA на модель Qwen3-8B устанавливает новый уровень state-of-the-art среди моделей с открытым исходным кодом. Система достигает паритета или превосходит проприетарные модели, такие как Gemini2.5 и MiniMax-M2.5, в конкретных задачах с открытым ответом. Эмпирические оценки подтверждают масштабируемость и эффективность данной стратегии согласования на основе объективной перплексии.

media Hugging Face Forums · 3 д назад

Niodoo: локальный рантайм для управления скрытым состоянием замороженных LLM

Джейсон Ван Фам выпустил Niodoo, локальный рантайм, предназначенный для управления замороженными большими языковыми моделями через их скрытые состояния. Проект направлен на исправление ошибок последнего шага путем внедрения шума или «физических сил» во время вывода данных, чтобы разорвать циклы токенов. Этот подход позволяет меньшим моделям улучшать производительность без тонкой настройки, ориентирован на конкретные случаи сбоев, такие как бенчмарк Llama strawberry prompt. Система генерирует собственные теги телеметрии и использует анализ TDA для мониторинга внутренних состояний модели на предмет циклического поведения. Ван Фам разработал этот инструмент органически в ходе месяцев самостоятельных исследований и тестирования на проникновение (red-teaming), делая акцент на воспроизводимых результатах с зафиксированными хешами. Код доступен на GitHub в репозитории Ruffian-L/niodoo-hidden-state-steering.

media Hugging Face Forums · 3 д назад

Вопрос о формате промпта для обучения Unsloth/Phi-3.5-mini-instruct

Пользователь ищет рекомендации по оптимальной стратегии форматирования промптов для обучения модели Phi-3.5-mini-instruct с использованием Unsloth. Запрос сравнивает сохранение пользовательского текстового формата с использованием стандартного шаблона чата при подготовке датасета. Текущая реализация использует функцию, которая структурирует данные в разделы '### Input:' и '### Output:', добавляя токен конца текста. Этот подход обрабатывает поля ввода и вывода в формате JSON, полученные из объекта Hugging Face Dataset. Приведенный пример демонстрирует сложную структуру, включающую финансовые инсайты, названия мерчантов, даты и суммы транзакций. Пользователь планирует развернуть обученную модель через пользовательский API и просит совета: следует ли сохранить этот формат или перейти на шаблон чата.