Training methods
arxiv arXiv cs.LG · 6 д назад

Модельный подход к семействам сред обучения с усилением

Модельный подход генерирует семейства сред обучения с усилением с помощью гибридного генетического алгоритма. Варианты сред создаются с помощью преобразований моделей, руководимых передовой системой преобразования моделей, что обеспечивает масштабируемое и ошибочно устойчивое развитие. Метод проверяется в сценариях по ликвидации пожаров и обучения куррикумам.

arxiv arXiv cs.LG · 6 д назад

Рекуррентные нейронные сети аппроксимируют непрерывные функции

Одна нейронная сеть с фиксированными весами и скрытой размерностью на основе ReLU может равномерно аппроксимировать любую непрерывную функцию на отрезке [-1,1] при увеличении времени выполнения. Это достигается с помощью нового моделирования — туринговой машины с нейронными единицами (TMNU), которая обеспечивает баланс между алгоритмической гибкостью и ограниченной имитацией нейронных сетей. Скорости сходимости соответствуют скоростям полиномиальной аппроксимации, а минимаксные нижние границы подтверждают, что время выполнения является важным и неизбежным ресурсом.

arxiv arXiv cs.LG · 6 д назад

QCPIKAN: квантово-классическая физически-обусловленная сеть Кольмогорова-Арнольда для уравнений в частных производных

QCPIKAN — первая квантово-классическая физически-обусловленная сеть Кольмогорова-Арнольда, разработанная для решения уравнений в частных производных. Она использует слои на основе чебышёвских полиномов КАН и параметризованных квантовых схем для встраивания физических ограничений в процесс обучения, обеспечивая экспоненциальное сходимость ошибки и снижение численной дисперсии. Проверена на сценариях проникновения в пористых средах, она превосходит существующие квантово-классические нейронные сети по точности предсказания, контролю ошибки и динамическому отслеживанию.

arxiv arXiv cs.LG · 6 д назад

Квантовый кольцевой агрегат: преимущества в коммуникации и приватности для распределенной обучения

Квантовая версия кольцевого агрегата снижает коммуникацию по каждому соединению вдвое с использованием запутывания и суперплотного кодирования, не изменяя вычисления модели или градиентов. Она обеспечивает агрегацию с теоретической безопасностью с использованием подтвержденного запутывания, с избыточностью в 2 раза по копиям GHZ, и предоставляет экспоненциальные преимущества в обнаружении конфликтов градиентов для определенных задач аудита.

arxiv arXiv cs.LG · 6 д назад

Снижение дисперсии в обучении на основе временных разностей

Обучение на основе временных разностей снижает дисперсию за счет агрегации по нескольким траекториям. Исследование показывает, что дисперсия TD асимптотически ограничена сверху оценками Монте-Карло, и короткие горизонты обновления снижают дисперсию при фиксированном количестве образцов. Прямое оценка преимущества действует как регрессионно скорректированный контр-вариант и достигает более тесных границ дисперсии, чем TD при больших выборках.

arxiv arXiv cs.CL · 6 д назад

Последовательный DPO показывает переменное влияние предпочтений в различных настройках

Исследование последовательного прямого оптимизации предпочтений показывает, что последующее обучение не унифицированно ухудшает ранее изученные предпочтения. Эффект варьируется в зависимости от взаимосвязи целей, силы сигнала и порядка обучения, варьируясь от частичного ухудшения до положительного переноса. Анализ на уровне пар показывает гетерогенные изменения, при этом пары с высокой уверенностью в предпочтениях иногда улучшаются, несмотря на стабильность общих метрик.

arxiv arXiv cs.CL · 6 д назад

Байесовское куррикулярное обучение на латентных многообразиях ЛЛМ

Manifold Bandits вводит Байесовское куррикулярное многообразие (BMC), рамку, которая моделирует выбор задач как структурированную задачу в латентном пространстве ЛЛМ. BMC организует задачи в иерархическое дерево и использует байесовское обучение для направления выбора, раскрывая компромиссы между сигналом обучения, разнообразием задач и релевантностью оценки. Простое приоритизация сложности не приводит к сильной производительности на последующих задачах, что подчеркивает необходимость структуры и выбора, учитывающего тип задачи.

arxiv arXiv cs.CL · 6 д назад

Обучение больших языковых моделей для агентов с длительным жизненным циклом через перекрестную обобщение в разных областях

Новый фреймворк позволяет больших языковых моделей учиться "Соедините точки" с использованием обучения с подкреплением и длинных последовательностей развертывания. Метод включает специализированные задачи и среды, способствующие развитию мета-способностей, демонстрируя сильное перекрестное обобщение и эффективность в условиях, отличающихся от распределения. Реализации доступны по адресу https://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_cod.

arxiv arXiv cs.CL · 6 д назад

Информационный анализ эффективного надзора в скрытой цепочке мыслей

Эта работа выявляет двойное упадание в скрытой логике: ослабление градиента и дрейф представлений. Предлагается Траекториальный и Пространственный надзор, показывая, что генеративное восстановление сохраняет информационную емкость лучше, чем геометрическое сжатие. Единый скрытый анализ измеряет взаимную информацию между скрытыми траекториями и шагами мышления, выявляя связь между информацией и производительностью в точности мышления.

arxiv arXiv cs.CL · 6 д назад

HydraHead: гибридное внимание на уровне головок для производительности при длинных контекстах

HydraHead вводит гибридное объединение полного и линейного внимания на уровне головок, используя интерпретируемость для выбора головок, критичных для поиска, и объединяя выходы через модуль с нормализацией масштаба. Обученный на 15 миллиардов токенов, он обеспечивает более чем 69% улучшения по сравнению с базовой моделью при длине контекста 512K, превосходя гибридные модели на уровне слоев и приближаясь к производительности Qwen3.5 на задачах с длинными контекстами.

media r/LocalLLaMA · 6 д назад

GLM-5.2 (744B, 2-бит) достигает 7,3 ток/с на 4×3090 с 192 ГБ ОЗУ

GLM-5.2 UD-IQ2_M работает со скоростью около 7,3 токенов в секунду на 4×RTX 3090 с 192 ГБ DDR5 ОЗУ при использовании llama.cpp с экспертным выгрузкой. Снижение квантования с IQ2 до IQ1 не привело к увеличению скорости, в то время как увеличение числа потоков на ЦП от 6 до 12 повысило производительность на 22%. Декодирование ограничено вычислительной мощностью ЦП, а не пропускной способностью памяти, и эксперты, выгруженные на GPU, должны быть явно распределены между GPU, чтобы избежать ошибок переполнения памяти.

media Latent Space · 7 д назад

Почему масштабирование ИИ — это проблема систем, а не просто соревнование по GPU

Диалог о масштабировании ИИ игнорирует то, что максимизация использования FLOP модели имеет большее значение, чем покупка дополнительных GPU. Организации, такие как xAI, работают на уровне ниже 10% MFU, в то время как исторические модели достигали 21% до 70% MFU, что указывает на системные недостатки в планировании, сетевом взаимодействии и управлении кластерами. Анджей Мидха утверждает, что инфраструктура ИИ должна эволюционировать в эффективные, сбалансированные и ответственные системы, и появляется новая дисциплина — "максимизация выхода" — для передовых систем ИИ.

media r/LocalLLaMA · 7 д назад

У кого есть достаточно вычислительных ресурсов, чтобы создать дистилляционный датасет из GLM5.2?

Пользователь спрашивает, у кого есть достаточные вычислительные ресурсы, чтобы создать большой дистилляционный датасет из 700 000 до 1 миллиона примеров из GLM5.2. Цель — улучшить обучение более маленьких моделей, таких как Qwen3.5, и помочь более широкой сообществу.

arxiv arXiv cs.LG · 7 д назад

Дискриминатор-ориентированный RL корректирует потоковое соответствие с помощью наград, синхронизированных с данными

Дискриминатор-ориентированный RL (DRL) использует предобученное пространство представлений для обучения дискриминатора, который отделяет реальные данные от образцов, сгенерированных моделью. Его логит используется в качестве награды в RL с регуляризацией КЛ, обеспечивая соответствие выводов модели визуальной и семантической реальности без человеческих предпочтений. DRL улучшает FID и семантическую FD во всех моделях, таких как SiT и JiT, и усиливает границу Парето между предпочтениями и точностью.

arxiv arXiv cs.LG · 7 д назад

Слияние основных подпространств для многозадачного обучения

Слияние основных подпространств (ESM) снижает перекрестное влияние между задачами, фокусируясь на главных направлениях сдвигов активации. ESM++ расширяет этот подход за счёт динамического выбора экспертов с помощью маршрутизации на основе прототипов, обеспечивая эффективное слияние многозадачных моделей без обучения.

arxiv arXiv cs.LG · 7 д назад

Безопасность отражения в предобучении для языковых моделей

Безопасность отражения в предобучении вставляет краткие отражения по безопасности в данные предобучения, чтобы обеспечить самонаблюдение в языковых моделях. Эксперименты с моделями 1,7B на наборе FineWeb-Edu показывают улучшенную точность по безопасности и снижение успешности атак, при этом MedSafetyWorld демонстрирует, что данный метод лучше предотвращает обобщение небезопасного поведения из безопасных данных, чем фильтрация данных или переписывание.

arxiv arXiv cs.LG · 7 д назад

Противоречия по размеру батчей в стохастических методах импульса

Методы стохастического импульса, такие как HB и ASGD, демонстрируют различные компромиссы по размеру батча в эффективности вычислений и последовательного времени выполнения. HB сохраняет вычислительную эффективность на уровне SGD в диапазоне размера батча, превышающем критический размер батча SGD на множитель \sqrt{\kappa}, в то время как ASGD улучшает эффективность малых батчей при быстром убывании спектра, но отдает эту эффективность при больших батчах в обмен на сокращение последовательного времени выполнения.

arxiv arXiv cs.LG · 7 д назад

AGDN: Решение задачи о продавце путешествий с анизотропным графовым диффузионным методом

AGDN представляет графическую нейронную сеть, которая решает проблемы топологических предпосылок и потери связности в задаче о продавце путешествий. Используя матрицу переходов MixScore и анизотропную диффузию, метод обеспечивает эффективный обмен информацией и превосходит существующие подходы по разнообразию размеров и распределений задач, при этом сохраняя конкурентную вычислительную скорость. Реализация доступна на GitHub.

arxiv arXiv cs.LG · 7 д назад

Решение-ориентированный RL для зарядки электромобилей с неизвестными временами выезда

Новая архитектура решений-ориентированного RL одновременно обучает прогнозиста и контроллер зарядки для работы с неизвестными временами выезда электромобилей. Согласовывая точность прогноза с качеством принятых решений, метод достигает до 14% большего общего вознаграждения и снижения на 55% необеспечиваемой энергии по сравнению с традиционными подходами RL.

arxiv arXiv cs.LG · 7 д назад

МАСТ обеспечивает селективное исключение в процессе принятия решений, вызванного RLVR

МАСТ, механизм-ориентированный метод исключения, достигает целенаправленного забвения процесса принятия решений, вызванного RLVR, с минимальными побочными эффектами. На Qwen2.5-Math-1.5B и Qwen3-1.7B-Base он значительно снижает производительность MATH (45/150 до 37/15-0), при этом сохраняет точность GSM8K на +0.8 пунктов и поддерживает сохранение MATH на -0.5 пунктов. Результаты остаются стабильными при различных семенах, целях и моделях, демонстрируя превосходную стабильность по сравнению с полным исключением параметров.