Training methods
arxiv arXiv cs.AI · 7 д назад

Самоусловленное присвоение кредитов для RL с подтверждаемыми вознаграждениями

SC-GRPO использует разность КЛ на уровне токена из самоусловленных траекторий для взвешивания градиентов в обучении с участием вознаграждений. Он превосходит GRPO на 8,1% и DAPO на 5,9% при выполнении задач по математике, программированию и агентским задачам, демонстрируя превосходную производительность при работе с распределениями, отличающимися от обучающих, и лучшие результаты по сравнению с OPD.

arxiv arXiv cs.AI · 7 д назад

Рескалинг MLM-головы для нейроспартого поиска

Исследование показало, что большие нормы MLM-голов в предобученных кодерах ухудшают производительность спартического поиска в SPLADE. Введение простого рескалинга MLM-головы на этапе инициализации стабилизирует обучение и улучшает производительность, достигая или превосходя BERT-SPLADE на нескольких бенчмарках.

arxiv arXiv cs.AI · 7 д назад

Фундаментальные модели обучения с усилением должны быть уже существующими

Обучение с усилением не имеет фундаментальных моделей, несмотря на то, что синтетические МДП являются возможными. Прототип показывает, что одна модель, обученная на синтетических МДП, решает табличные задачи без настройки, превосходя существующие методы в онлайн-сценариях и соответствуя им в оффлайн-сценариях.

arxiv arXiv cs.AI · 7 д назад

Созревающие марковские процессы принятия решений вводят новый фреймворк принятия решений

Созревающие марковские процессы принятия решений (MMDPs) моделируют асимметричное развитие доступности информации и действий в последовательных решениях. Они вводят принцип приоритета по истечению действия и структура-ориентированный фреймворк репетитивного обучения, который повышает эффективность обучения, особенно в сложных и масштабируемых задачах принятия решений.

arxiv arXiv cs.AI · 7 д назад

Пространство — это интеллект: нейронная семигрупповая суперпозиция для генерации римановой метрики

Интеллект встроенный в само пространство, где сцены индуцируют риманову метрику на конфигурационных многообразиях. Одна сеть Encoder-Router использует семигрупповую суперпозицию для генерации этой метрики, обеспечивая нулевую обобщаемость на неизвестных конфигурациях препятствий с большими затратами между путями без столкновений и путями, проходящими через препятствия.

arxiv arXiv cs.AI · 7 д назад

Skill-MAS: Эволюционная метаскилл для автоматических систем многоагентов

Skill-MAS вводит новый подход, который разделяет сохранение опыта от параметрических обновлений, моделируя оркестрацию как эволюционную метаскилл. Он использует замкнутый процесс, включающий многотраекторные развертывания и селективное отражение, для выделения повторно используемых принципов стратегии, обеспечивая значительные улучшения производительности и устойчивую переносимость между задачами и ЛЛМ.

arxiv arXiv cs.AI · 7 д назад

Фокус: Использование GPU Spot для ускорения постобучивания DiT RL

Фокус позволяет осуществлять постобучивание DiT RL за счёт использования пустых GPU Spot, снижая расходы на 1,4–6,4 раза при достижении превосходного качества изображений. Оно использует устаревшие веса модели при исследовании и динамически перестраивает последовательную параллельность в реальном времени, обеспечивая эффективное использование GPU без нарушения обучающих цепочек.

arxiv arXiv cs.AI · 7 д назад

FoMoE преодолевает порог полных копий с помощью разделенных экспертиз слоев

FoMoE представляет систему, которая распределяет экспертизные слои между рабочими, чтобы избежать полных копий модели, снижая затраты на коммуникацию до 1,42 раза по сравнению с эффективными базовыми вариантами и до 45,44 раза по сравнению с DDP. Система достигает увеличения производительности до 1,4 раза за счёт механизма пропуска токенов и демонстрирует стабильную маршрутизацию, с прогнозируемыми преимуществами, распространяющимися на модели масштаба 100B, за счёт системного моделирования.

arxiv arXiv cs.AI · 7 д назад

РОДС: Награда-ориентированное онлайн-синтезирование данных для агентов с многократным использованием инструментов

РОДС решает проблему истощения образцов в многократном использовании инструментов в RL с помощью вариации вознаграждения для обнаружения границ способностей. Он синтезирует новые данные в реальном времени, соответствующие структурной сложности образцов на границах, и поддерживает динамический буфер повторного использования, который эволюционирует вместе с политикой. РОДС достигает производительности, сравнимой с 17-тысячным офлайн-пайплайном, при 20 раз меньшем количестве траекторий.

arxiv arXiv cs.AI · 7 д назад

Pareto Q-Learning с машинами вознаграждений

PQLRM — это алгоритм многокритериальной робастной оптимизации, который объединяет Pareto Q-Learning с Reward Machines для обработки не-марковских вознаграждений. Он сходится быстрее, чем простой PQL на кросс-продукт MDP, и генерирует парето-оптимальные стратегии за пределами возможностей QRM.

media r/LocalLLaMA · 8 д назад

LoopCoder-V2: Модель PLT с двумя циклами достигает наилучшего соотношения выгоды и затрат

LoopCoder-V2 — это модель кода на 7B параметров, обученная на параллельном трансформере (PLT), и обученная на 18T токенов смешанных текстовых и кодовых данных. Вариант с двумя циклами достигает наилучшего соотношения выгоды и затрат, увеличивая SWE-bench Verified с 43.0 до 64.4, в то время как три или более циклов приводят к регрессии из-за роста позиционного несоответствия и нестабильных обновлений.

arxiv arXiv cs.LG · 8 д назад

Рекурсивные скрытые модели диффузии вводят новый осевой масштаб

Рекурсивные скрытые модели диффузии (R-MDMs) вводят рекурсивную глубину как третий осевой масштаб, применяя внутри каждого шага диффузии дезинтегрирующий трансформер. Эта рекурсия позволяет итеративно улучшать выход без увеличения количества параметров, достигая производительности, сравнимой с не-рекурсивными моделями, при наличии до L раз больше параметров, где L — количество итераций. R-MDMs также снижают вычислительные затраты на инференс, частично заменяя шаги дезинтеграции на рекурсивное уточнение.

arxiv arXiv cs.LG · 8 д назад

Катастрофическое забвение — это низкий ранг: теория функционального пространства

Теория функционального пространства показывает, что катастрофическое забвение при непрерывной адаптации концентрируется в небольшом числе старых задач NTK-эйдженмодов. В случае линейного заголовка PEFT-CL с замороженной основой, вектор забвения точно предсказуем до численной точности, с правилом Кронекера для уязвимого ранга.

arxiv arXiv cs.LG · 8 д назад

INI-VPINN: нейронная сеть с физическими условиями, с упрощённым обработкой границ

INI-VPINN — это вариационная физически обусловленная нейронная сеть, которая неявно обеспечивает условия Неймана и условия на границах с помощью весовых функций с компактной поддержкой и интегрированием по частям. Она обеспечивает более высокую точность и быстрый сходимость по сравнению с существующими методами PINN при решении задач с несколькими материалами и геометрическими особенностями, а также с смешанными условиями на границах, и доступна на GitHub.

arxiv arXiv cs.LG · 8 д назад

Модели Вольтерры вводят дробную шум для генерации на основе счёта

Модели Вольтерры предлагают непрерывный временной подход на основе счёта, используя дробные ядра для введения шума, зависящего от пути, что избегает памяти-независимого шумирования в традиционных моделях диффузии. Подход вводит конечномерные марковские подъемы и доказывает оценки квадратичной ошибки, демонстрируя улучшенную генерацию на MNIST и потенциал для естественных изображений, при этом бридж-сэмплер повышает стабильность для более крупных моделей.

arxiv arXiv cs.LG · 8 д назад

Алгоритм второго порядка поиска причинности на основе тензоров

TSCD использует ковариационные матрицы из наблюдаемых и интервенционных данных для определения причинных структур в линейных структурных уравнениях на графах ДАГ. Он требует только несвязанных шумов и обеспечивает идентифицируемые порядки и параметры причинности с логарифмическим количеством интервенций, масштабируясь до сотен переменных, при этом сохраняя устойчивость к шуму и конкурируя с существующими методами.

arxiv arXiv cs.LG · 8 д назад

Edge Flow: Трехмерная модель для градиентного спуска на границе стабильности

Edge Flow — это разрешимая, предсказуемая модель непрерывного времени, которая описывает динамику градиентного спуска на границе стабильности. Она разбивает динамику на центральную, направление колебаний и их амплитуду, при этом самоподдерживающаяся осточность возникает из синхронного обратного действия. Модель требует лишь двух оценок градиента и одного произведения гессиана с вектором на итерацию, и превосходит предыдущие модели по отслеживанию колебаний и объяснению нестабильностей на границе стабильности.

arxiv arXiv cs.LG · 8 д назад

Составная обобщение в рациональных процессах языковых моделей

Модель иерархического скрытого выбора показывает, что подкрепленная настройка и обучение с помощью вознаграждения работают совместно для обеспечения составного обобщения в языковых моделях. Подкрепленная настройка предоставляет сырье модулей, в то время как обучение с помощью вознаграждения идентифицирует и переключает атомные модули из сложных следов для решения новых задач. Обучение на сложных следах приводит к более сильному обобщению, чем обучение отдельных модулей, и был найден эффективный протокол, при котором подкрепленная настройка обеспечивает покрытие модулей, а обучение с помощью вознаграждения стимулирует изучение новых составов.

arxiv arXiv cs.LG · 8 д назад

S4oP: метод прямого сокращения на уровне операторов для эффективной развертывания SSM

S4oP вводит метод постепенного сокращения на уровне операторов для моделей S4 и S4D, что позволяет снизить стоимость инференса на 70% при сохранении производительности прогнозирования. Метод объединяет структурированное маскирование с мелкой настройкой и одновременно отслеживает точность и задержку, что обеспечивает эффективное развертывание SSM на устройствах с ограниченными ресурсами.

arxiv arXiv cs.LG · 8 д назад

Глубокое обучение с подкреплением для минимального нуля-вынуждающего множества

В этой статье предложена SD-ZFS, фреймворк глубокого обучения с подкреплением, адаптированный из S2V-DQN, для решения задачи минимального нуля-вынуждающего множества, которая является NP-сложной, на неориентированных графах. Фреймворк демонстрирует сильную производительность по сравнению с оптимальными решениями и жадными эвристиками, показывая эффективную обобщаемость, масштабируемость и переносимость на разнообразные структуры графов.