Training methods
arxiv arXiv cs.CL · 6 д назад

Последовательный DPO показывает переменное влияние предпочтений в различных настройках

Исследование последовательного прямого оптимизации предпочтений показывает, что последующее обучение не унифицированно ухудшает ранее изученные предпочтения. Эффект варьируется в зависимости от взаимосвязи целей, силы сигнала и порядка обучения, варьируясь от частичного ухудшения до положительного переноса. Анализ на уровне пар показывает гетерогенные изменения, при этом пары с высокой уверенностью в предпочтениях иногда улучшаются, несмотря на стабильность общих метрик.

arxiv arXiv cs.CL · 6 д назад

Байесовское куррикулярное обучение на латентных многообразиях ЛЛМ

Manifold Bandits вводит Байесовское куррикулярное многообразие (BMC), рамку, которая моделирует выбор задач как структурированную задачу в латентном пространстве ЛЛМ. BMC организует задачи в иерархическое дерево и использует байесовское обучение для направления выбора, раскрывая компромиссы между сигналом обучения, разнообразием задач и релевантностью оценки. Простое приоритизация сложности не приводит к сильной производительности на последующих задачах, что подчеркивает необходимость структуры и выбора, учитывающего тип задачи.

arxiv arXiv cs.CL · 6 д назад

Обучение больших языковых моделей для агентов с длительным жизненным циклом через перекрестную обобщение в разных областях

Новый фреймворк позволяет больших языковых моделей учиться "Соедините точки" с использованием обучения с подкреплением и длинных последовательностей развертывания. Метод включает специализированные задачи и среды, способствующие развитию мета-способностей, демонстрируя сильное перекрестное обобщение и эффективность в условиях, отличающихся от распределения. Реализации доступны по адресу https://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_cod.

arxiv arXiv cs.CL · 6 д назад

Информационный анализ эффективного надзора в скрытой цепочке мыслей

Эта работа выявляет двойное упадание в скрытой логике: ослабление градиента и дрейф представлений. Предлагается Траекториальный и Пространственный надзор, показывая, что генеративное восстановление сохраняет информационную емкость лучше, чем геометрическое сжатие. Единый скрытый анализ измеряет взаимную информацию между скрытыми траекториями и шагами мышления, выявляя связь между информацией и производительностью в точности мышления.

arxiv arXiv cs.CL · 6 д назад

HydraHead: гибридное внимание на уровне головок для производительности при длинных контекстах

HydraHead вводит гибридное объединение полного и линейного внимания на уровне головок, используя интерпретируемость для выбора головок, критичных для поиска, и объединяя выходы через модуль с нормализацией масштаба. Обученный на 15 миллиардов токенов, он обеспечивает более чем 69% улучшения по сравнению с базовой моделью при длине контекста 512K, превосходя гибридные модели на уровне слоев и приближаясь к производительности Qwen3.5 на задачах с длинными контекстами.

media r/LocalLLaMA · 6 д назад

GLM-5.2 (744B, 2-бит) достигает 7,3 ток/с на 4×3090 с 192 ГБ ОЗУ

GLM-5.2 UD-IQ2_M работает со скоростью около 7,3 токенов в секунду на 4×RTX 3090 с 192 ГБ DDR5 ОЗУ при использовании llama.cpp с экспертным выгрузкой. Снижение квантования с IQ2 до IQ1 не привело к увеличению скорости, в то время как увеличение числа потоков на ЦП от 6 до 12 повысило производительность на 22%. Декодирование ограничено вычислительной мощностью ЦП, а не пропускной способностью памяти, и эксперты, выгруженные на GPU, должны быть явно распределены между GPU, чтобы избежать ошибок переполнения памяти.

media Latent Space · 6 д назад

Почему масштабирование ИИ — это проблема систем, а не просто соревнование по GPU

Диалог о масштабировании ИИ игнорирует то, что максимизация использования FLOP модели имеет большее значение, чем покупка дополнительных GPU. Организации, такие как xAI, работают на уровне ниже 10% MFU, в то время как исторические модели достигали 21% до 70% MFU, что указывает на системные недостатки в планировании, сетевом взаимодействии и управлении кластерами. Анджей Мидха утверждает, что инфраструктура ИИ должна эволюционировать в эффективные, сбалансированные и ответственные системы, и появляется новая дисциплина — "максимизация выхода" — для передовых систем ИИ.

media r/LocalLLaMA · 7 д назад

У кого есть достаточно вычислительных ресурсов, чтобы создать дистилляционный датасет из GLM5.2?

Пользователь спрашивает, у кого есть достаточные вычислительные ресурсы, чтобы создать большой дистилляционный датасет из 700 000 до 1 миллиона примеров из GLM5.2. Цель — улучшить обучение более маленьких моделей, таких как Qwen3.5, и помочь более широкой сообществу.

arxiv arXiv cs.LG · 7 д назад

Дискриминатор-ориентированный RL корректирует потоковое соответствие с помощью наград, синхронизированных с данными

Дискриминатор-ориентированный RL (DRL) использует предобученное пространство представлений для обучения дискриминатора, который отделяет реальные данные от образцов, сгенерированных моделью. Его логит используется в качестве награды в RL с регуляризацией КЛ, обеспечивая соответствие выводов модели визуальной и семантической реальности без человеческих предпочтений. DRL улучшает FID и семантическую FD во всех моделях, таких как SiT и JiT, и усиливает границу Парето между предпочтениями и точностью.

arxiv arXiv cs.LG · 7 д назад

Слияние основных подпространств для многозадачного обучения

Слияние основных подпространств (ESM) снижает перекрестное влияние между задачами, фокусируясь на главных направлениях сдвигов активации. ESM++ расширяет этот подход за счёт динамического выбора экспертов с помощью маршрутизации на основе прототипов, обеспечивая эффективное слияние многозадачных моделей без обучения.

arxiv arXiv cs.LG · 7 д назад

Безопасность отражения в предобучении для языковых моделей

Безопасность отражения в предобучении вставляет краткие отражения по безопасности в данные предобучения, чтобы обеспечить самонаблюдение в языковых моделях. Эксперименты с моделями 1,7B на наборе FineWeb-Edu показывают улучшенную точность по безопасности и снижение успешности атак, при этом MedSafetyWorld демонстрирует, что данный метод лучше предотвращает обобщение небезопасного поведения из безопасных данных, чем фильтрация данных или переписывание.

arxiv arXiv cs.LG · 7 д назад

Противоречия по размеру батчей в стохастических методах импульса

Методы стохастического импульса, такие как HB и ASGD, демонстрируют различные компромиссы по размеру батча в эффективности вычислений и последовательного времени выполнения. HB сохраняет вычислительную эффективность на уровне SGD в диапазоне размера батча, превышающем критический размер батча SGD на множитель \sqrt{\kappa}, в то время как ASGD улучшает эффективность малых батчей при быстром убывании спектра, но отдает эту эффективность при больших батчах в обмен на сокращение последовательного времени выполнения.

arxiv arXiv cs.LG · 7 д назад

AGDN: Решение задачи о продавце путешествий с анизотропным графовым диффузионным методом

AGDN представляет графическую нейронную сеть, которая решает проблемы топологических предпосылок и потери связности в задаче о продавце путешествий. Используя матрицу переходов MixScore и анизотропную диффузию, метод обеспечивает эффективный обмен информацией и превосходит существующие подходы по разнообразию размеров и распределений задач, при этом сохраняя конкурентную вычислительную скорость. Реализация доступна на GitHub.

arxiv arXiv cs.LG · 7 д назад

Решение-ориентированный RL для зарядки электромобилей с неизвестными временами выезда

Новая архитектура решений-ориентированного RL одновременно обучает прогнозиста и контроллер зарядки для работы с неизвестными временами выезда электромобилей. Согласовывая точность прогноза с качеством принятых решений, метод достигает до 14% большего общего вознаграждения и снижения на 55% необеспечиваемой энергии по сравнению с традиционными подходами RL.

arxiv arXiv cs.LG · 7 д назад

МАСТ обеспечивает селективное исключение в процессе принятия решений, вызванного RLVR

МАСТ, механизм-ориентированный метод исключения, достигает целенаправленного забвения процесса принятия решений, вызванного RLVR, с минимальными побочными эффектами. На Qwen2.5-Math-1.5B и Qwen3-1.7B-Base он значительно снижает производительность MATH (45/150 до 37/15-0), при этом сохраняет точность GSM8K на +0.8 пунктов и поддерживает сохранение MATH на -0.5 пунктов. Результаты остаются стабильными при различных семенах, целях и моделях, демонстрируя превосходную стабильность по сравнению с полным исключением параметров.

arxiv arXiv cs.LG · 7 д назад

STARE: Регулирование преимуществ на уровне токенов с использованием сюрприза для стабильности энтропии политики

STARE решает проблему коллапса энтропии политики в методах обучения с усилением на основе GRPO, выявляя критические подмножества токенов с использованием квантилей сюрприза и пересчитывая их преимущества. Он обеспечивает стабильность энтропии политики на разных масштабах модели и задач, превосходя DAPO и другие базовые методы на 4%-8% на AIME24 и AIME25, с постоянным балансом между исследованием и эксплуатацией.

arxiv arXiv cs.LG · 7 д назад

Графовые нейронные сети ускоряют решатели на основе алгебраической мультигрид для давления

Графовая нейронная сеть улучшает решатели на основе алгебраической мультигрид за счёт предсказания оптимальных коэффициентов полиномов для разреженных псевдообратных операторов. Метод снижает количество итераций V-циклов и обеспечивает ускорение времени выполнения от 4% до 37% на различных тестах, при этом демонстрирует устойчивую производительность на сетках, в десять раз превышающих объём обучающих данных, и на неизвестных промышленных задачах, таких как AirfRANS.

arxiv arXiv cs.LG · 7 д назад

Большие языковые Гиббс для структурированной вероятностной инференции

Большие языковые Гиббс используют условные распределения ЛЛМ как операторы перехода для итеративного пересчета переменных. Метод позволяет достигать согласованной, порядковой независимой вероятностной инференции за счет достижения стационарного распределения, которое сбалансирует локальные условные распределения, предлагая практический альтернативный подход к однопроходной генерации для задач структурированного мышления.

arxiv arXiv cs.LG · 7 д назад

NeSyCat Torch: Реализация дифференцируемых тензоров для нейросимвольного обучения

NeSyCat Torch предоставляет дифференцируемую реализацию тензоров категориальных семантик для нейросимвольного обучения, объединяя классические, размытые, вероятностные и нейронные системы под единым определением индуктивной истины. Он превосходит LTN и DeepProbLog по скорости и точности на задаче сложения MNIST, достигая точности, равной DeepStochLog, при работе в единой системе, расширяемой на непрерывную вероятность через инстанцирование монады.

arxiv arXiv cs.LG · 7 д назад

P-K-GCN: физически усиленный Koopman-усиленный графовый конволюционный сетей

P-K-GCN обеспечивает высокую точность пространственно-временной суперразрешающей обработки на нерегулярных геометриях за счет объединения графовых конволюционных сетей с теорией оператора Коупмана. В нем включена физически обусловленная потеря для обеспечения соблюдения физических законов, что снижает ошибку суперразрешающей обработки за счет улучшения обобщения и точности, как это было подтверждено в восстановлении электродинамики сердца.