Training methods
arxiv arXiv cs.LG · 8 д назад

Глубокое обучение с подкреплением для минимального нуля-вынуждающего множества

В этой статье предложена SD-ZFS, фреймворк глубокого обучения с подкреплением, адаптированный из S2V-DQN, для решения задачи минимального нуля-вынуждающего множества, которая является NP-сложной, на неориентированных графах. Фреймворк демонстрирует сильную производительность по сравнению с оптимальными решениями и жадными эвристиками, показывая эффективную обобщаемость, масштабируемость и переносимость на разнообразные структуры графов.

arxiv arXiv cs.LG · 8 д назад

Изучение справедливых парето-оптимальных политик в многокритериальной робастной обучении

Статья представляет рамку для многополитической многокритериальной робастной обучении, которая обучает набор парето-оптимальных политик, обеспечивая справедливость в различных предпочтениях пользователей. В ней доказывается, что справедливые политики остаются в выпуклой области покрытия для вогнутых функций благосостояния, и предлагается три алгоритма, которые учитывают нестационарные и стохастические динамики политики. Эмпирические результаты показывают, что эти методы эффективно обучают справедливые политики, адаптируемые к различным предпочтениям пользователей.

arxiv arXiv cs.LG · 8 д назад

Тернарный Мамба: эффективная QAT моделей SSM из предварительно обученных чекпоинтов

Тернарный Мамба достигает сжатия Мамба-2 в 3,61 раза с 2687 до 744 МБ с использованием групповой квантовой тренировки с дистилляцией знаний. Он достигает точности 48,1% на 7 задачах в 102 млн токенов, что соответствует Би-Мамбе с погрешностью 0,9 процентных пунктов, при этом избегая дорогостоящей с нуля тренировки.

arxiv arXiv cs.LG · 8 д назад

LiL-Q: Конвексный метод для нелинейных дифференциальных уравнений в частных производных с PINNs

Новый конвексный метод квазилинейнойизации, LiL-Q, решает нелинейные дифференциальные уравнения в частных производных, приводя их к линейным подзадачам с помощью физически обусловленных нейронных сетей. LiL-Q сходится за несколько итераций на семи тестовых задачах, достигая машинной точности при наличии точного решения в пространстве проб, и требует до двух порядков величины меньше параметров, чем стандартные решатели PINNs.

arxiv arXiv cs.LG · 8 д назад

Диффузионное приближение для обучения TD с линейными признаками

Вводится модель стохастического дифференциального уравнения для линейного обучения TD(0) под марковским шумом. Оно разделяет динамику сжатия от эффектов выборки и объясняет порог ошибки через взаимодействие между долгосрочной ковариацией и геометрией проецированного оператора Беллмана.

arxiv arXiv cs.LG · 8 д назад

Модели циклического мира достигают эффективности в 100 раз по параметрам

Модели циклического мира (LoopWM) вводят архитектуру на основе циклов, которая итеративно уточняет скрытые состояния среды с использованием трансформатора с совместными параметрами. Этот подход обеспечивает эффективность в 100 раз по параметрам по сравнению с традиционными моделями мира, адаптируя глубину вычислений к каждой стадии предсказания. LoopWM устанавливает итеративную глубину скрытого состояния как новую размерность масштабирования для моделирования мира.

arxiv arXiv cs.CL · 8 д назад

SkillWeaver: Составная маршрутизация навыков для агентов на основе языковых моделей

SkillWeaver вводит рамку декомпозиции-получения-составления для агентов на основе языковых моделей, формализующую проблему составной маршрутизации навыков. Он достигает точности декомпозиции на уровне 67,7% с помощью итеративной декомпозиции с учетом навыков (SAD), улучшая результат с 51,0% с p-значением менее 10^-6, и снижает использование окна контекста более чем на 99%.

arxiv arXiv cs.CL · 8 д назад

ConSA: Управление спарсностью в гибридном внимании

ConSA представляет рамку, которая обучает оптимальное распределение внимания между полным и оконным вниманием с использованием регуляризации L0 и дополнительных лагранжевых ограничений. Он превосходит методы на основе правил, при этом оконное внимание (SWA) размещается в нижних слоях, а полное внимание (FA) концентрируется в блоках средних слоев, что наблюдается во всех масштабах моделей и уровнях спарсности.

arxiv arXiv cs.CL · 8 д назад

d-OPSD: Самодистилляция на основе политики для диффузионных LLM

d-OPSD — первый фреймворк самодистилляции на основе политики, разработанный для диффузионных LLM. Он использует самогенерируемые ответы как субъектное условие и супервизию на уровне шагов, что позволяет эффективно проводить постобучивание с использованием около 10% шагов оптимизации RLVR, при этом превосходя базовые методы RLVR и SFT на четырёх задачах логического мышления.

arxiv arXiv cs.CL · 8 д назад

Модели циклического мира достигают эффективности в 100 раз

Модели циклического мира (LoopWM) вводят архитектуру на основе циклов, которая последовательно уточняет скрытые состояния среды с использованием трансформатора с общей параметризацией. Этот подход обеспечивает эффективность в 100 раз по сравнению с традиционными моделями мира за счёт адаптации глубины вычислений к каждому шагу предсказания, предлагая новую размерность масштабирования для моделирования мира.

arxiv arXiv cs.CL · 8 д назад

ZPPO: Учитель в промптах, а не в градиентах

Зона проксимальной оптимизации политики (ZPPO) интегрирует знания учителя прямо в промпты, а не в градиенты политики. Используя двоичные и отрицательные кандидаты с включёнными вопросами, ZPPO выявляет недостатки учащихся и усиливает обучение через буфер повторного использования промптов, достигая превосходных результатов на сложных вопросах на различных масштабах учащихся, особенно при использовании малых моделей.

arxiv arXiv cs.CL · 8 д назад

Переменные ширинные трансформеры превосходят однородные архитектуры

Новая архитектура трансформера в форме креста распределяет разную ширину слоев, расширяя ранние и поздние слои, при этом сужая средние. Это приводит к уменьшению средней ширины слоя, что позволяет сократить количество FLOP на 22% и объемы кэша KV на 15%, при этом превосходя однородные базовые модели по потере при моделировании языка в диапазоне от 200 миллионов до 2 миллиардов параметров.

arxiv arXiv cs.LG · 8 д назад

MGUP: Моментум-Градиентное Согласование для Селективной Оптимизации

MGUP вводит механизм селективного обновления, при котором применяются большие шаги обновления к фиксированному проценту параметров в стохастической оптимизации, в то время как остальные параметры обновляются с меньшими, ненулевыми шагами. MGUP интегрируется без проблем с оптимизаторами, такими как AdamW, Lion и Muon, обеспечивая теоретические гарантии сходимости для MGUP-AdamW и демонстрируя превосходную или более стабильную производительность при обучении больших языковых моделей и задачах предобучения MAE.

arxiv arXiv cs.LG · 8 д назад

ReLAR: Регулирование скрытых состояний на основе репликации для стабильного рассуждения больших языковых моделей

ReLAR представляет рамку на основе репликации, которая последовательно улучшает скрытые состояния для повышения стабильности рассуждений больших языковых моделей. Она использует обученные контроллеры глубины и действий, тренированные с помощью градиентов политики, для адаптивного определения шагов уточнения, обеспечивая лучшую точность и качество генерации по сравнению с явными методами рассуждения при меньшей нагрузке на инференс.

arxiv arXiv cs.LG · 8 д назад

NMF с топологической регуляризацией для интерпретируемых базисов

Новая методика интегрирует персистентную гомологию в неотрицательное матричное разложение для регуляризации топологии базисных функций. Этот подход позволяет получать пространственно согласованные компоненты изображений, периодические временные ряды и кликовые граф-сигналы, используя пороговые свободные топологические оценки как регуляризаторы в цели NMF.

arxiv arXiv cs.LG · 8 д назад

CARLOS: Глубокое обучение для непрерывного оптимального останова

CARLOS использует агрегированный глубокий нейронный слой для обучения совместной пространственно-временной границы останова для задач оптимального останова. Он последовательно уточняет решения останова на более тонких временных разрешениях и использует адаптивную выборку для фокусировки обучения вблизи границы останова. Результаты сравнительных испытаний показывают, что CARLOS превосходит существующие бермуданские решатели и приближается к американской верхней границе с высокой эффективностью.

arxiv arXiv cs.LG · 8 д назад

Обратное обучение Q: Новый алгоритм офф-полицейского обучения

Обратное обучение Q (RQL) — это новый алгоритм офф-полицейского обучения, который обучает политику потока с использованием предварительных данных. Моделируя шаги уточнения потока как действия в расширенном процессе марковской решений и применяя виртуальные офф-полицейские траектории через обратное преобразование, RQL обеспечивает эффективное обучение без обратного распространения во времени. Эксперименты по 50 роботизированным задачам показывают, что RQL достигает наилучшей средней производительности среди современных методов офф-полицейского обучения на основе потока.

arxiv arXiv cs.LG · 8 д назад

SCBoost: Уменьшение избыточности обучаемых моделей за счёт ортогонализации остатков

SCBoost вводит ортогонализацию остатков для устранения избыточности обучаемых моделей в методе boosting. Он использует спектральную проекцию остатков и весов, регулируемых ковариацией, чтобы обеспечить, что каждая модель захватывает новые компоненты ошибки и снижает корреляции в ансамбле. Теоретический анализ и эксперименты показывают улучшение точности и показателей F1 на десяти базовых наборах данных.

arxiv arXiv cs.LG · 8 д назад

Credit-in-Event: Восстановление кредитов событий в динамических моделях

Новая методика, называемая Credit-in-Event, идентифицирует и решает проблему временного размазывания кредитов в обученных динамических моделях. CREST, метка-безопасный и обучение-безопасный выход, восстанавливает объединённые представления, оценивая транзитные ядра событий и применяя контраст между событиями и остатком, что снижает ошибку вне распределения для различных систем и типов данных. Исследования по исключениям подтверждают, что улучшение обусловлено восстановлением кредитов ядра события, а не общими предпосылками локальности или стабильности.

arxiv arXiv cs.LG · 8 д назад

SelFix: корневой выбор фиксированного точки инверсии для прямоугольных потоков через прямолинейность траектории

SelFix улучшает инверсию фиксированной точки за счёт выбора решений, которые создают более прямолинейные обратные траектории, что повышает качество реконструкции реальных изображений и редактирования с сохранением источника. Эксперименты на FLUX.1-dev и PIE-Bench показывают, что SelFix превосходит предыдущие базовые методы как по качеству реконструкции, так и по точности редактирования.