Training methods
arxiv arXiv cs.LG · 8 д назад

INI-VPINN: нейронная сеть с физическими условиями, с упрощённым обработкой границ

INI-VPINN — это вариационная физически обусловленная нейронная сеть, которая неявно обеспечивает условия Неймана и условия на границах с помощью весовых функций с компактной поддержкой и интегрированием по частям. Она обеспечивает более высокую точность и быстрый сходимость по сравнению с существующими методами PINN при решении задач с несколькими материалами и геометрическими особенностями, а также с смешанными условиями на границах, и доступна на GitHub.

arxiv arXiv cs.LG · 8 д назад

Модели Вольтерры вводят дробную шум для генерации на основе счёта

Модели Вольтерры предлагают непрерывный временной подход на основе счёта, используя дробные ядра для введения шума, зависящего от пути, что избегает памяти-независимого шумирования в традиционных моделях диффузии. Подход вводит конечномерные марковские подъемы и доказывает оценки квадратичной ошибки, демонстрируя улучшенную генерацию на MNIST и потенциал для естественных изображений, при этом бридж-сэмплер повышает стабильность для более крупных моделей.

arxiv arXiv cs.LG · 8 д назад

Алгоритм второго порядка поиска причинности на основе тензоров

TSCD использует ковариационные матрицы из наблюдаемых и интервенционных данных для определения причинных структур в линейных структурных уравнениях на графах ДАГ. Он требует только несвязанных шумов и обеспечивает идентифицируемые порядки и параметры причинности с логарифмическим количеством интервенций, масштабируясь до сотен переменных, при этом сохраняя устойчивость к шуму и конкурируя с существующими методами.

arxiv arXiv cs.LG · 8 д назад

Edge Flow: Трехмерная модель для градиентного спуска на границе стабильности

Edge Flow — это разрешимая, предсказуемая модель непрерывного времени, которая описывает динамику градиентного спуска на границе стабильности. Она разбивает динамику на центральную, направление колебаний и их амплитуду, при этом самоподдерживающаяся осточность возникает из синхронного обратного действия. Модель требует лишь двух оценок градиента и одного произведения гессиана с вектором на итерацию, и превосходит предыдущие модели по отслеживанию колебаний и объяснению нестабильностей на границе стабильности.

arxiv arXiv cs.LG · 8 д назад

Составная обобщение в рациональных процессах языковых моделей

Модель иерархического скрытого выбора показывает, что подкрепленная настройка и обучение с помощью вознаграждения работают совместно для обеспечения составного обобщения в языковых моделях. Подкрепленная настройка предоставляет сырье модулей, в то время как обучение с помощью вознаграждения идентифицирует и переключает атомные модули из сложных следов для решения новых задач. Обучение на сложных следах приводит к более сильному обобщению, чем обучение отдельных модулей, и был найден эффективный протокол, при котором подкрепленная настройка обеспечивает покрытие модулей, а обучение с помощью вознаграждения стимулирует изучение новых составов.

arxiv arXiv cs.LG · 8 д назад

S4oP: метод прямого сокращения на уровне операторов для эффективной развертывания SSM

S4oP вводит метод постепенного сокращения на уровне операторов для моделей S4 и S4D, что позволяет снизить стоимость инференса на 70% при сохранении производительности прогнозирования. Метод объединяет структурированное маскирование с мелкой настройкой и одновременно отслеживает точность и задержку, что обеспечивает эффективное развертывание SSM на устройствах с ограниченными ресурсами.

arxiv arXiv cs.LG · 8 д назад

Глубокое обучение с подкреплением для минимального нуля-вынуждающего множества

В этой статье предложена SD-ZFS, фреймворк глубокого обучения с подкреплением, адаптированный из S2V-DQN, для решения задачи минимального нуля-вынуждающего множества, которая является NP-сложной, на неориентированных графах. Фреймворк демонстрирует сильную производительность по сравнению с оптимальными решениями и жадными эвристиками, показывая эффективную обобщаемость, масштабируемость и переносимость на разнообразные структуры графов.

arxiv arXiv cs.LG · 8 д назад

Изучение справедливых парето-оптимальных политик в многокритериальной робастной обучении

Статья представляет рамку для многополитической многокритериальной робастной обучении, которая обучает набор парето-оптимальных политик, обеспечивая справедливость в различных предпочтениях пользователей. В ней доказывается, что справедливые политики остаются в выпуклой области покрытия для вогнутых функций благосостояния, и предлагается три алгоритма, которые учитывают нестационарные и стохастические динамики политики. Эмпирические результаты показывают, что эти методы эффективно обучают справедливые политики, адаптируемые к различным предпочтениям пользователей.

arxiv arXiv cs.LG · 8 д назад

Тернарный Мамба: эффективная QAT моделей SSM из предварительно обученных чекпоинтов

Тернарный Мамба достигает сжатия Мамба-2 в 3,61 раза с 2687 до 744 МБ с использованием групповой квантовой тренировки с дистилляцией знаний. Он достигает точности 48,1% на 7 задачах в 102 млн токенов, что соответствует Би-Мамбе с погрешностью 0,9 процентных пунктов, при этом избегая дорогостоящей с нуля тренировки.

arxiv arXiv cs.LG · 8 д назад

LiL-Q: Конвексный метод для нелинейных дифференциальных уравнений в частных производных с PINNs

Новый конвексный метод квазилинейнойизации, LiL-Q, решает нелинейные дифференциальные уравнения в частных производных, приводя их к линейным подзадачам с помощью физически обусловленных нейронных сетей. LiL-Q сходится за несколько итераций на семи тестовых задачах, достигая машинной точности при наличии точного решения в пространстве проб, и требует до двух порядков величины меньше параметров, чем стандартные решатели PINNs.

arxiv arXiv cs.LG · 8 д назад

Диффузионное приближение для обучения TD с линейными признаками

Вводится модель стохастического дифференциального уравнения для линейного обучения TD(0) под марковским шумом. Оно разделяет динамику сжатия от эффектов выборки и объясняет порог ошибки через взаимодействие между долгосрочной ковариацией и геометрией проецированного оператора Беллмана.

arxiv arXiv cs.LG · 8 д назад

Модели циклического мира достигают эффективности в 100 раз по параметрам

Модели циклического мира (LoopWM) вводят архитектуру на основе циклов, которая итеративно уточняет скрытые состояния среды с использованием трансформатора с совместными параметрами. Этот подход обеспечивает эффективность в 100 раз по параметрам по сравнению с традиционными моделями мира, адаптируя глубину вычислений к каждой стадии предсказания. LoopWM устанавливает итеративную глубину скрытого состояния как новую размерность масштабирования для моделирования мира.

arxiv arXiv cs.CL · 8 д назад

SkillWeaver: Составная маршрутизация навыков для агентов на основе языковых моделей

SkillWeaver вводит рамку декомпозиции-получения-составления для агентов на основе языковых моделей, формализующую проблему составной маршрутизации навыков. Он достигает точности декомпозиции на уровне 67,7% с помощью итеративной декомпозиции с учетом навыков (SAD), улучшая результат с 51,0% с p-значением менее 10^-6, и снижает использование окна контекста более чем на 99%.

arxiv arXiv cs.CL · 8 д назад

ConSA: Управление спарсностью в гибридном внимании

ConSA представляет рамку, которая обучает оптимальное распределение внимания между полным и оконным вниманием с использованием регуляризации L0 и дополнительных лагранжевых ограничений. Он превосходит методы на основе правил, при этом оконное внимание (SWA) размещается в нижних слоях, а полное внимание (FA) концентрируется в блоках средних слоев, что наблюдается во всех масштабах моделей и уровнях спарсности.

arxiv arXiv cs.CL · 8 д назад

d-OPSD: Самодистилляция на основе политики для диффузионных LLM

d-OPSD — первый фреймворк самодистилляции на основе политики, разработанный для диффузионных LLM. Он использует самогенерируемые ответы как субъектное условие и супервизию на уровне шагов, что позволяет эффективно проводить постобучивание с использованием около 10% шагов оптимизации RLVR, при этом превосходя базовые методы RLVR и SFT на четырёх задачах логического мышления.

arxiv arXiv cs.CL · 8 д назад

Модели циклического мира достигают эффективности в 100 раз

Модели циклического мира (LoopWM) вводят архитектуру на основе циклов, которая последовательно уточняет скрытые состояния среды с использованием трансформатора с общей параметризацией. Этот подход обеспечивает эффективность в 100 раз по сравнению с традиционными моделями мира за счёт адаптации глубины вычислений к каждому шагу предсказания, предлагая новую размерность масштабирования для моделирования мира.

arxiv arXiv cs.CL · 8 д назад

ZPPO: Учитель в промптах, а не в градиентах

Зона проксимальной оптимизации политики (ZPPO) интегрирует знания учителя прямо в промпты, а не в градиенты политики. Используя двоичные и отрицательные кандидаты с включёнными вопросами, ZPPO выявляет недостатки учащихся и усиливает обучение через буфер повторного использования промптов, достигая превосходных результатов на сложных вопросах на различных масштабах учащихся, особенно при использовании малых моделей.

arxiv arXiv cs.CL · 8 д назад

Переменные ширинные трансформеры превосходят однородные архитектуры

Новая архитектура трансформера в форме креста распределяет разную ширину слоев, расширяя ранние и поздние слои, при этом сужая средние. Это приводит к уменьшению средней ширины слоя, что позволяет сократить количество FLOP на 22% и объемы кэша KV на 15%, при этом превосходя однородные базовые модели по потере при моделировании языка в диапазоне от 200 миллионов до 2 миллиардов параметров.

arxiv arXiv cs.LG · 8 д назад

MGUP: Моментум-Градиентное Согласование для Селективной Оптимизации

MGUP вводит механизм селективного обновления, при котором применяются большие шаги обновления к фиксированному проценту параметров в стохастической оптимизации, в то время как остальные параметры обновляются с меньшими, ненулевыми шагами. MGUP интегрируется без проблем с оптимизаторами, такими как AdamW, Lion и Muon, обеспечивая теоретические гарантии сходимости для MGUP-AdamW и демонстрируя превосходную или более стабильную производительность при обучении больших языковых моделей и задачах предобучения MAE.

arxiv arXiv cs.LG · 8 д назад

ReLAR: Регулирование скрытых состояний на основе репликации для стабильного рассуждения больших языковых моделей

ReLAR представляет рамку на основе репликации, которая последовательно улучшает скрытые состояния для повышения стабильности рассуждений больших языковых моделей. Она использует обученные контроллеры глубины и действий, тренированные с помощью градиентов политики, для адаптивного определения шагов уточнения, обеспечивая лучшую точность и качество генерации по сравнению с явными методами рассуждения при меньшей нагрузке на инференс.