Training methods
arxiv arXiv cs.CL · только что Live

BiPACE: Оптимизация политики с учётом бисимуляции и контрфактическая оценка действий для агентов на основе больших языковых моделей

Авторы выявляют фундаментальное несоответствие в распределении заслуг между состоянием и действием при пошаговом групповом обучении с подкреплением (RL) для длинногоризонтных агентов на основе больших языковых моделей (LLM). Существующие оценщики страдают от чрезмерно детального разбиения по состояниям и грубого усреднения по действиям, что нарушает допущения эквивалентности при распределении заслуг. Предлагается BiPACE — встроенный оценщик преимущества, устраняющий эти проблемы без добавления критиков или дополнительных проходов (rollouts). Он группирует шаги на основе косинусного расстояния в геометрии скрытых состояний актора, чтобы уменьшить количество одиночных групп, и центрирует награды с использованием базовых линий, зависящих от действия. В задаче ALFWorld с моделью Qwen2.5-7B BiPACE_Q повышает успешность на валидации с 90,8 до 97,1±0,9, преодолевая порог в 95% при каждом начальном зерне (seed). Он также улучшает результаты для Qwen2.5-1.5B и демонстрирует прирост производительности на WebShop и TextCraft по сравнению с GRPO и GiGPO. Метод добавляет лишь 11,3% накладных расходов к времени выполнения одного шага обучения, изменяя единицу сравнения на приближённое поведенческое эквивалентность.

arxiv arXiv cs.CL · 1 ч назад Live

OPERA: Согласование открытого рассуждения посредством объективного обучения с подкреплением на основе перплексии

Фреймворк OPERA решает проблему нестабильности применения обучения с подкреплением к задачам с открытым ответом, заменяя внешние модели-судьи внутренними наградами, полученными из динамики перплексии. Этот подход количественно оценивает снижение неопределенности в критических состояниях рефлексии, устраняя стилистические смещения и позиционные несоответствия, характерные для систем LLM-as-a-judge. На этапе холодного старта метод использует направляющие слова для синтеза разнообразных цепочек рассуждений и применяет роллауты с приоритетом по перплексии для выявления логически согласованных ветвей. Этот конвейер генерирует крупномасштабный набор данных из 20 000 высококачественных траекторий рассуждения для обучения. Внедрение OPERA на модель Qwen3-8B устанавливает новый уровень state-of-the-art среди моделей с открытым исходным кодом. Система достигает паритета или превосходит проприетарные модели, такие как Gemini2.5 и MiniMax-M2.5, в конкретных задачах с открытым ответом. Эмпирические оценки подтверждают масштабируемость и эффективность данной стратегии согласования на основе объективной перплексии.

media Hugging Face Forums · 2 ч назад

Niodoo: локальный рантайм для управления скрытым состоянием замороженных LLM

Джейсон Ван Фам выпустил Niodoo, локальный рантайм, предназначенный для управления замороженными большими языковыми моделями через их скрытые состояния. Проект направлен на исправление ошибок последнего шага путем внедрения шума или «физических сил» во время вывода данных, чтобы разорвать циклы токенов. Этот подход позволяет меньшим моделям улучшать производительность без тонкой настройки, ориентирован на конкретные случаи сбоев, такие как бенчмарк Llama strawberry prompt. Система генерирует собственные теги телеметрии и использует анализ TDA для мониторинга внутренних состояний модели на предмет циклического поведения. Ван Фам разработал этот инструмент органически в ходе месяцев самостоятельных исследований и тестирования на проникновение (red-teaming), делая акцент на воспроизводимых результатах с зафиксированными хешами. Код доступен на GitHub в репозитории Ruffian-L/niodoo-hidden-state-steering.

media Hugging Face Forums · 2 ч назад

Вопрос о формате промпта для обучения Unsloth/Phi-3.5-mini-instruct

Пользователь ищет рекомендации по оптимальной стратегии форматирования промптов для обучения модели Phi-3.5-mini-instruct с использованием Unsloth. Запрос сравнивает сохранение пользовательского текстового формата с использованием стандартного шаблона чата при подготовке датасета. Текущая реализация использует функцию, которая структурирует данные в разделы '### Input:' и '### Output:', добавляя токен конца текста. Этот подход обрабатывает поля ввода и вывода в формате JSON, полученные из объекта Hugging Face Dataset. Приведенный пример демонстрирует сложную структуру, включающую финансовые инсайты, названия мерчантов, даты и суммы транзакций. Пользователь планирует развернуть обученную модель через пользовательский API и просит совета: следует ли сохранить этот формат или перейти на шаблон чата.

arxiv arXiv cs.CL · 2 ч назад

Экономия пространства при генерации языка в пределе

Настоящее исследование закладывает основы теории генерации языка в пределе, учитывающей ресурсы и ограничения по эффективности использования памяти. Обучающийся наблюдает за враждебной последовательностью положительных примеров из целевого языка K и должен выдать гипотезу L, свободную от галлюцинаций, пропустив не более Δ строк. В качестве класса гипотез для обучающихся с ограниченной памятью рассматриваются детерминированные конечные автоматы (DFAs) с s состояниями над алфавитом размера k. В режиме экспоненциальной памяти авторы доказывают, что обучающийся может точно идентифицировать целевой язык K. При более строгих ограничениях по объему памяти они представляют потоковый алгоритм, использующий O(poly(s,k)) памяти и сходящийся к гипотезе с разрывом генерации Δ = O(k^{2s-2}). Эта обученная гипотеза содержит все строки из K длины не менее 2s-1. Результаты дополняются нижней оценкой, близкой к достижимой, полученной из теории сложности коммуникации, показывающей, что достижение Δ ≤ k^{(1-ε)s} требует памяти объема k^{Ω(εs)}. Эти выводы демонстрируют резкий переход между генерацией в полиномиальной памяти и точной идентификацией в экспоненциальной памяти.

arxiv arXiv cs.CL · 2 ч назад

SARA: Раскрытие многоязычных знаний в смеси экспертов через семантически закрепленную маршрутизацию

Архитектуры разреженной смеси экспертов (MoE) часто сталкиваются с трудностями при работе с языками с низким уровнем ресурсов из-за расхождения кросслингвистической маршрутизации, которое ограничивает совместное использование экспертов. Для решения этой проблемы исследователи предлагают SARA — фреймворк, который переносит специализированные возможности из высоко ресурсных языков-якорей на языки с низким уровнем ресурсов. SARA выравнивает внутренние распределения маршрутизации слоев MoE с помощью ограничения симметричного расхождения Дженсена-Шеннона, а не оперируя выходными логитами. Этот подход способствует механистической согласованности выбора экспертов для разных языков. Авторы оценили метод на двух больших языковых моделях (LLM) по пяти языкам с низким уровнем ресурсов и трем бенчмаркам. Результаты показывают, что SARA превосходит стандартное инструктивное обучение, достигая прироста +0,8% на Qwen3-30B-A3B и +1,2% на Phi-3.5-MoE-instruct для Global-MMLU. Эти выводы демонстрируют, что SARA эффективно устраняет узкие места производительности в контекстах с низким уровнем ресурсов.

media r/LocalLLaMA · 5 ч назад

Gefen: готовая замена AdamW с заявленным снижением потребления памяти в 8 раз

Gefen позиционируется как готовая замена оптимизатора AdamW, предлагающая восьмикратное снижение использования памяти во время обучения. Проект включает репозиторий GitHub по адресу ndvbd/Gefen и соответствующую исследовательскую статью на arXiv под идентификатором 2606.13894. Эта публикация подчеркивает потенциал Gefen в оптимизации эффективности использования ресурсов для рабочих процессов машинного обучения. Предоставленные исходные материалы содержат прямые ссылки на техническую документацию и кодовую базу для дополнительной проверки. В доступном тексте не приводятся дополнительные метрики производительности или сравнительные бенчмарки.

arxiv arXiv cs.AI · 11 ч назад

HyperAdapter: структурированная адаптация гиперребер для мелкого настройки визуальных трансформеров

HyperAdapter вводит адаптер на основе гиперграфа, который обеспечивает структурированную, групповую адаптацию в визуальных трансформерах, работая в пространстве гиперребер, а не в пространстве токенов. Он использует проработанные присваивания для построения мягкого гиперграфа, агрегирует признаки токенов в представления гиперребер, применяет лёгкую адаптацию и возвращает обновления через структуру гиперграфа, обеспечивая явную структурную индуктивную предпосылку при сохранении эффективности. Эксперименты показывают стабильное улучшение по сравнению с базовыми методами PEFT, особенно на задачах, требующих структурированного мышления.

arxiv arXiv cs.AI · 11 ч назад

Кадр P4IR повышает точность соблюдения кода на основе больших языковых моделей

P4IR, двухэтапная система, использует обучение с учителем и групповую относительную оптимизацию политик для улучшения систем автоматического соблюдения кода на основе больших языковых моделей. Она снижает расстояние редактирования дерева и расстояние Левенштейна на уровне токенов на 23,8% и 38,6% соответственно, превосходя ведущие языковые модели, такие как Claude Opus, GPT-5.2 и GLM-4.7, в условиях нулевого обучения с использованием небольшого количества примеров, и снижает количество ложноположительных результатов на незначительную, но статистически значимую величину.

arxiv arXiv cs.AI · 12 ч назад

SciVerseGym: среда для обучения с подкреплением для открытия кристаллов

SciVerseGym представляет среду, совместимую с Gymnasium, которая формирует открытие кристаллов как процесс марковского решения. Оно позволяет агентам выполнять химически значимые изменения на атомных структурах и получать обратную связь от настраиваемых оценщиков, поддерживая разнообразные типы действий и наблюдений с использованием машинных потенциалов или калькуляторов, совместимых с ASE.

arxiv arXiv cs.AI · 15 ч назад

Представьте, чтобы обеспечить безопасность в иерархическом обучении с помощью вознаграждения

Метод объединяет обучаемую модель мира с политиками высокого и низкого уровня, чтобы обеспечить безопасное исследование в задачах с длинными горизонтами. Политика высокого уровня направляет исследование к безопасным подцелям, в то время как политика низкого уровня использует воображаемые симуляции, чтобы предотвратить небезопасное поведение, превосходя существующие методы безопасного обучения с помощью вознаграждения по показателю успешности и выполнения ограничений в различных задачах.

arxiv arXiv cs.AI · 15 ч назад

Fed-CausalDiff: Распределённая синхронизация для федеративной моделирования действий

Fed-CausalDiff вводит федеративную причинно-диффузионную архитектуру, которая позволяет проводить моделирование действий в распределённых средах. Она разделяет эволюцию скрытого состояния на глобальные и локальные компоненты, что позволяет обеспечить распределённую синхронизацию для снижения затрат на передачу данных, при сохранении точной оценки политики и оценки эффекта на среду (ATE).

arxiv arXiv cs.AI · 17 ч назад

Весовое настройка на-поли-дистилляции решает смещение позиции

На-поли-дистилляция (OPD) страдает от смещения позиции, при котором поздние токены обеспечивают плохую поддержку. Весовая настройка OPD (IW-OPD) присваивает динамические веса на основе расхождения распределений, приоритизируя ранние токены и подавляя поздние. IW-OPD сходится быстрее и достигает до 6,9 точек роста производительности на AIME-2025 по сравнению с стандартной OPD.

arxiv arXiv cs.LG · 17 ч назад

Награда-безопасное предобучение для обучения с вознаграждением через максимизацию покрытия состояний

ROVER обеспечивает награду-безопасное предобучение за счет максимизации покрытия состояний в пространстве состояний, используя обученную модель мира для оценки покрытия без оценки плотности или энтропии. Оно вводит виртуальный статус-связи для балансировки исследования известных и неизвестных областей, достигая более равномерного покрытия и лучшей производительности в задачах навигации в табличных и пиксельных форматах.

arxiv arXiv cs.LG · 19 ч назад

Центральная предельная теорема для среднего оптимизатора Adam

В статье доказана центральная предельная теорема для среднего оптимизатора Adam, показывающая сходимость порядка n^{-1/2}. Этот порядок совпадает с классическими алгоритмами стохастической аппроксимации, а ковариация выражается через свойства алгоритма в состоянии притяжения.

arxiv arXiv cs.LG · 19 ч назад

Кадр BIPC ускоряет оптимизацию смешанных целых чисел с помощью машинного обучения

Кадр BIPC уменьшает время решения для больших смешанных целочисленных программ за счёт выявления подмножества переменных, которые определяют вычислительную сложность. Используя обучение с учителем, он предсказывает значения и интервалы переменных-дверей, затем решает уменьшенную задачу с этими предсказаниями, достигая значительного ускорения с минимальным потерей качества. Это позволяет получать быстрые и качественные решения при возмущениях параметров в реальных системах, таких как энергетика и цепи поставок.

arxiv arXiv cs.LG · 20 ч назад

Глубокое обучение с параллельной временной сложностью O(log N)

Гиерархическое блочное локальное обучение (HBLL) позволяет обучать глубокие нейронные сети за временной сложностью O(log N) в параллельном режиме, устраняя необходимость полного обратного распространения. HBLL разбивает сети на гиерархически связанные блоки и достигает конкурентоспособных результатов на задачах визуального и языкового понимания, с расширениями на рекуррентные архитектуры.

arxiv arXiv cs.LG · 20 ч назад

Аналитические градиенты политик для эффективного непрерывного управления

Аналитические градиенты политик (APG) обеспечивают точное вычисление градиентов с помощью обратного распространения через симуляцию при дифференцируемых динамических характеристиках среды. APG превосходит Проxимую политическую оптимизацию (PPO) на четырех задачах непрерывного управления, демонстрируя превосходную эффективность по образцам и обучению, благодаря сегментированной схеме обратного распространения, которая снижает деградацию градиентов на задачах с длинными горизонтами.

arxiv arXiv cs.LG · 21 ч назад

Оптимизатор Мюон: Сила, пределы и теория речной долины

Новая теория на уровне траектории показывает, что Мюон ускоряется на ранних этапах оптимизации в направлении речной долины, несущей информацию, но медленно сходится вблизи дна, в отличие от градиентного спуска. При наличии импульса ортогонализованные обновления Мюон удаляют остаточную информацию масштаба, что приводит к перескокам и колебаниям. В исследовании предлагается двухэтапный подход — использование Мюон на ранних этапах и переход к оптимизаторам, похожим на градиентный спуск, на поздних этапах — для улучшения производительности обучения больших языковых моделей.

arxiv arXiv cs.LG · 21 ч назад

GOMA достигает первого гарантии стохастической сходимости для вариационных неравенств

В статье представлен GOMA, семейство методов первого порядка для монотонных вариационных неравенств. В стохастической ситуации с неограниченной дисперсией упрощённая версия GOMA обеспечивает скорость сходимости O(1/sqrt(k)) по норме квадратного градиента на последнем итерации, без использования методов уменьшения дисперсии или увеличения размеров выборок. Это первый подобный результат для неограниченных стохастических монотонных липшицевых вариационных неравенств.