Training methods
arxiv arXiv cs.LG · 8 д назад

Составная обобщение в рациональных процессах языковых моделей

Модель иерархического скрытого выбора показывает, что подкрепленная настройка и обучение с помощью вознаграждения работают совместно для обеспечения составного обобщения в языковых моделях. Подкрепленная настройка предоставляет сырье модулей, в то время как обучение с помощью вознаграждения идентифицирует и переключает атомные модули из сложных следов для решения новых задач. Обучение на сложных следах приводит к более сильному обобщению, чем обучение отдельных модулей, и был найден эффективный протокол, при котором подкрепленная настройка обеспечивает покрытие модулей, а обучение с помощью вознаграждения стимулирует изучение новых составов.

arxiv arXiv cs.LG · 8 д назад

S4oP: метод прямого сокращения на уровне операторов для эффективной развертывания SSM

S4oP вводит метод постепенного сокращения на уровне операторов для моделей S4 и S4D, что позволяет снизить стоимость инференса на 70% при сохранении производительности прогнозирования. Метод объединяет структурированное маскирование с мелкой настройкой и одновременно отслеживает точность и задержку, что обеспечивает эффективное развертывание SSM на устройствах с ограниченными ресурсами.

arxiv arXiv cs.LG · 8 д назад

Глубокое обучение с подкреплением для минимального нуля-вынуждающего множества

В этой статье предложена SD-ZFS, фреймворк глубокого обучения с подкреплением, адаптированный из S2V-DQN, для решения задачи минимального нуля-вынуждающего множества, которая является NP-сложной, на неориентированных графах. Фреймворк демонстрирует сильную производительность по сравнению с оптимальными решениями и жадными эвристиками, показывая эффективную обобщаемость, масштабируемость и переносимость на разнообразные структуры графов.

arxiv arXiv cs.LG · 8 д назад

Изучение справедливых парето-оптимальных политик в многокритериальной робастной обучении

Статья представляет рамку для многополитической многокритериальной робастной обучении, которая обучает набор парето-оптимальных политик, обеспечивая справедливость в различных предпочтениях пользователей. В ней доказывается, что справедливые политики остаются в выпуклой области покрытия для вогнутых функций благосостояния, и предлагается три алгоритма, которые учитывают нестационарные и стохастические динамики политики. Эмпирические результаты показывают, что эти методы эффективно обучают справедливые политики, адаптируемые к различным предпочтениям пользователей.

arxiv arXiv cs.LG · 8 д назад

Тернарный Мамба: эффективная QAT моделей SSM из предварительно обученных чекпоинтов

Тернарный Мамба достигает сжатия Мамба-2 в 3,61 раза с 2687 до 744 МБ с использованием групповой квантовой тренировки с дистилляцией знаний. Он достигает точности 48,1% на 7 задачах в 102 млн токенов, что соответствует Би-Мамбе с погрешностью 0,9 процентных пунктов, при этом избегая дорогостоящей с нуля тренировки.

arxiv arXiv cs.LG · 8 д назад

LiL-Q: Конвексный метод для нелинейных дифференциальных уравнений в частных производных с PINNs

Новый конвексный метод квазилинейнойизации, LiL-Q, решает нелинейные дифференциальные уравнения в частных производных, приводя их к линейным подзадачам с помощью физически обусловленных нейронных сетей. LiL-Q сходится за несколько итераций на семи тестовых задачах, достигая машинной точности при наличии точного решения в пространстве проб, и требует до двух порядков величины меньше параметров, чем стандартные решатели PINNs.

arxiv arXiv cs.LG · 8 д назад

Диффузионное приближение для обучения TD с линейными признаками

Вводится модель стохастического дифференциального уравнения для линейного обучения TD(0) под марковским шумом. Оно разделяет динамику сжатия от эффектов выборки и объясняет порог ошибки через взаимодействие между долгосрочной ковариацией и геометрией проецированного оператора Беллмана.

arxiv arXiv cs.LG · 8 д назад

Модели циклического мира достигают эффективности в 100 раз по параметрам

Модели циклического мира (LoopWM) вводят архитектуру на основе циклов, которая итеративно уточняет скрытые состояния среды с использованием трансформатора с совместными параметрами. Этот подход обеспечивает эффективность в 100 раз по параметрам по сравнению с традиционными моделями мира, адаптируя глубину вычислений к каждой стадии предсказания. LoopWM устанавливает итеративную глубину скрытого состояния как новую размерность масштабирования для моделирования мира.

arxiv arXiv cs.CL · 8 д назад

SkillWeaver: Составная маршрутизация навыков для агентов на основе языковых моделей

SkillWeaver вводит рамку декомпозиции-получения-составления для агентов на основе языковых моделей, формализующую проблему составной маршрутизации навыков. Он достигает точности декомпозиции на уровне 67,7% с помощью итеративной декомпозиции с учетом навыков (SAD), улучшая результат с 51,0% с p-значением менее 10^-6, и снижает использование окна контекста более чем на 99%.

arxiv arXiv cs.CL · 8 д назад

ConSA: Управление спарсностью в гибридном внимании

ConSA представляет рамку, которая обучает оптимальное распределение внимания между полным и оконным вниманием с использованием регуляризации L0 и дополнительных лагранжевых ограничений. Он превосходит методы на основе правил, при этом оконное внимание (SWA) размещается в нижних слоях, а полное внимание (FA) концентрируется в блоках средних слоев, что наблюдается во всех масштабах моделей и уровнях спарсности.

arxiv arXiv cs.CL · 8 д назад

d-OPSD: Самодистилляция на основе политики для диффузионных LLM

d-OPSD — первый фреймворк самодистилляции на основе политики, разработанный для диффузионных LLM. Он использует самогенерируемые ответы как субъектное условие и супервизию на уровне шагов, что позволяет эффективно проводить постобучивание с использованием около 10% шагов оптимизации RLVR, при этом превосходя базовые методы RLVR и SFT на четырёх задачах логического мышления.

arxiv arXiv cs.CL · 8 д назад

Модели циклического мира достигают эффективности в 100 раз

Модели циклического мира (LoopWM) вводят архитектуру на основе циклов, которая последовательно уточняет скрытые состояния среды с использованием трансформатора с общей параметризацией. Этот подход обеспечивает эффективность в 100 раз по сравнению с традиционными моделями мира за счёт адаптации глубины вычислений к каждому шагу предсказания, предлагая новую размерность масштабирования для моделирования мира.

arxiv arXiv cs.CL · 8 д назад

ZPPO: Учитель в промптах, а не в градиентах

Зона проксимальной оптимизации политики (ZPPO) интегрирует знания учителя прямо в промпты, а не в градиенты политики. Используя двоичные и отрицательные кандидаты с включёнными вопросами, ZPPO выявляет недостатки учащихся и усиливает обучение через буфер повторного использования промптов, достигая превосходных результатов на сложных вопросах на различных масштабах учащихся, особенно при использовании малых моделей.

arxiv arXiv cs.CL · 8 д назад

Переменные ширинные трансформеры превосходят однородные архитектуры

Новая архитектура трансформера в форме креста распределяет разную ширину слоев, расширяя ранние и поздние слои, при этом сужая средние. Это приводит к уменьшению средней ширины слоя, что позволяет сократить количество FLOP на 22% и объемы кэша KV на 15%, при этом превосходя однородные базовые модели по потере при моделировании языка в диапазоне от 200 миллионов до 2 миллиардов параметров.

arxiv arXiv cs.LG · 8 д назад

MGUP: Моментум-Градиентное Согласование для Селективной Оптимизации

MGUP вводит механизм селективного обновления, при котором применяются большие шаги обновления к фиксированному проценту параметров в стохастической оптимизации, в то время как остальные параметры обновляются с меньшими, ненулевыми шагами. MGUP интегрируется без проблем с оптимизаторами, такими как AdamW, Lion и Muon, обеспечивая теоретические гарантии сходимости для MGUP-AdamW и демонстрируя превосходную или более стабильную производительность при обучении больших языковых моделей и задачах предобучения MAE.

arxiv arXiv cs.LG · 8 д назад

ReLAR: Регулирование скрытых состояний на основе репликации для стабильного рассуждения больших языковых моделей

ReLAR представляет рамку на основе репликации, которая последовательно улучшает скрытые состояния для повышения стабильности рассуждений больших языковых моделей. Она использует обученные контроллеры глубины и действий, тренированные с помощью градиентов политики, для адаптивного определения шагов уточнения, обеспечивая лучшую точность и качество генерации по сравнению с явными методами рассуждения при меньшей нагрузке на инференс.

arxiv arXiv cs.LG · 8 д назад

NMF с топологической регуляризацией для интерпретируемых базисов

Новая методика интегрирует персистентную гомологию в неотрицательное матричное разложение для регуляризации топологии базисных функций. Этот подход позволяет получать пространственно согласованные компоненты изображений, периодические временные ряды и кликовые граф-сигналы, используя пороговые свободные топологические оценки как регуляризаторы в цели NMF.

arxiv arXiv cs.LG · 8 д назад

CARLOS: Глубокое обучение для непрерывного оптимального останова

CARLOS использует агрегированный глубокий нейронный слой для обучения совместной пространственно-временной границы останова для задач оптимального останова. Он последовательно уточняет решения останова на более тонких временных разрешениях и использует адаптивную выборку для фокусировки обучения вблизи границы останова. Результаты сравнительных испытаний показывают, что CARLOS превосходит существующие бермуданские решатели и приближается к американской верхней границе с высокой эффективностью.

arxiv arXiv cs.LG · 8 д назад

Обратное обучение Q: Новый алгоритм офф-полицейского обучения

Обратное обучение Q (RQL) — это новый алгоритм офф-полицейского обучения, который обучает политику потока с использованием предварительных данных. Моделируя шаги уточнения потока как действия в расширенном процессе марковской решений и применяя виртуальные офф-полицейские траектории через обратное преобразование, RQL обеспечивает эффективное обучение без обратного распространения во времени. Эксперименты по 50 роботизированным задачам показывают, что RQL достигает наилучшей средней производительности среди современных методов офф-полицейского обучения на основе потока.

arxiv arXiv cs.LG · 8 д назад

SCBoost: Уменьшение избыточности обучаемых моделей за счёт ортогонализации остатков

SCBoost вводит ортогонализацию остатков для устранения избыточности обучаемых моделей в методе boosting. Он использует спектральную проекцию остатков и весов, регулируемых ковариацией, чтобы обеспечить, что каждая модель захватывает новые компоненты ошибки и снижает корреляции в ансамбле. Теоретический анализ и эксперименты показывают улучшение точности и показателей F1 на десяти базовых наборах данных.