Training methods
arxiv arXiv cs.CL · 8 д назад

Модели циклического мира достигают эффективности в 100 раз

Модели циклического мира (LoopWM) вводят архитектуру на основе циклов, которая последовательно уточняет скрытые состояния среды с использованием трансформатора с общей параметризацией. Этот подход обеспечивает эффективность в 100 раз по сравнению с традиционными моделями мира за счёт адаптации глубины вычислений к каждому шагу предсказания, предлагая новую размерность масштабирования для моделирования мира.

arxiv arXiv cs.CL · 8 д назад

ZPPO: Учитель в промптах, а не в градиентах

Зона проксимальной оптимизации политики (ZPPO) интегрирует знания учителя прямо в промпты, а не в градиенты политики. Используя двоичные и отрицательные кандидаты с включёнными вопросами, ZPPO выявляет недостатки учащихся и усиливает обучение через буфер повторного использования промптов, достигая превосходных результатов на сложных вопросах на различных масштабах учащихся, особенно при использовании малых моделей.

arxiv arXiv cs.CL · 8 д назад

Переменные ширинные трансформеры превосходят однородные архитектуры

Новая архитектура трансформера в форме креста распределяет разную ширину слоев, расширяя ранние и поздние слои, при этом сужая средние. Это приводит к уменьшению средней ширины слоя, что позволяет сократить количество FLOP на 22% и объемы кэша KV на 15%, при этом превосходя однородные базовые модели по потере при моделировании языка в диапазоне от 200 миллионов до 2 миллиардов параметров.

arxiv arXiv cs.LG · 8 д назад

MGUP: Моментум-Градиентное Согласование для Селективной Оптимизации

MGUP вводит механизм селективного обновления, при котором применяются большие шаги обновления к фиксированному проценту параметров в стохастической оптимизации, в то время как остальные параметры обновляются с меньшими, ненулевыми шагами. MGUP интегрируется без проблем с оптимизаторами, такими как AdamW, Lion и Muon, обеспечивая теоретические гарантии сходимости для MGUP-AdamW и демонстрируя превосходную или более стабильную производительность при обучении больших языковых моделей и задачах предобучения MAE.

arxiv arXiv cs.LG · 8 д назад

ReLAR: Регулирование скрытых состояний на основе репликации для стабильного рассуждения больших языковых моделей

ReLAR представляет рамку на основе репликации, которая последовательно улучшает скрытые состояния для повышения стабильности рассуждений больших языковых моделей. Она использует обученные контроллеры глубины и действий, тренированные с помощью градиентов политики, для адаптивного определения шагов уточнения, обеспечивая лучшую точность и качество генерации по сравнению с явными методами рассуждения при меньшей нагрузке на инференс.

arxiv arXiv cs.LG · 8 д назад

NMF с топологической регуляризацией для интерпретируемых базисов

Новая методика интегрирует персистентную гомологию в неотрицательное матричное разложение для регуляризации топологии базисных функций. Этот подход позволяет получать пространственно согласованные компоненты изображений, периодические временные ряды и кликовые граф-сигналы, используя пороговые свободные топологические оценки как регуляризаторы в цели NMF.

arxiv arXiv cs.LG · 8 д назад

CARLOS: Глубокое обучение для непрерывного оптимального останова

CARLOS использует агрегированный глубокий нейронный слой для обучения совместной пространственно-временной границы останова для задач оптимального останова. Он последовательно уточняет решения останова на более тонких временных разрешениях и использует адаптивную выборку для фокусировки обучения вблизи границы останова. Результаты сравнительных испытаний показывают, что CARLOS превосходит существующие бермуданские решатели и приближается к американской верхней границе с высокой эффективностью.

arxiv arXiv cs.LG · 8 д назад

Обратное обучение Q: Новый алгоритм офф-полицейского обучения

Обратное обучение Q (RQL) — это новый алгоритм офф-полицейского обучения, который обучает политику потока с использованием предварительных данных. Моделируя шаги уточнения потока как действия в расширенном процессе марковской решений и применяя виртуальные офф-полицейские траектории через обратное преобразование, RQL обеспечивает эффективное обучение без обратного распространения во времени. Эксперименты по 50 роботизированным задачам показывают, что RQL достигает наилучшей средней производительности среди современных методов офф-полицейского обучения на основе потока.

arxiv arXiv cs.LG · 8 д назад

SCBoost: Уменьшение избыточности обучаемых моделей за счёт ортогонализации остатков

SCBoost вводит ортогонализацию остатков для устранения избыточности обучаемых моделей в методе boosting. Он использует спектральную проекцию остатков и весов, регулируемых ковариацией, чтобы обеспечить, что каждая модель захватывает новые компоненты ошибки и снижает корреляции в ансамбле. Теоретический анализ и эксперименты показывают улучшение точности и показателей F1 на десяти базовых наборах данных.

arxiv arXiv cs.LG · 8 д назад

Credit-in-Event: Восстановление кредитов событий в динамических моделях

Новая методика, называемая Credit-in-Event, идентифицирует и решает проблему временного размазывания кредитов в обученных динамических моделях. CREST, метка-безопасный и обучение-безопасный выход, восстанавливает объединённые представления, оценивая транзитные ядра событий и применяя контраст между событиями и остатком, что снижает ошибку вне распределения для различных систем и типов данных. Исследования по исключениям подтверждают, что улучшение обусловлено восстановлением кредитов ядра события, а не общими предпосылками локальности или стабильности.

arxiv arXiv cs.LG · 8 д назад

SelFix: корневой выбор фиксированного точки инверсии для прямоугольных потоков через прямолинейность траектории

SelFix улучшает инверсию фиксированной точки за счёт выбора решений, которые создают более прямолинейные обратные траектории, что повышает качество реконструкции реальных изображений и редактирования с сохранением источника. Эксперименты на FLUX.1-dev и PIE-Bench показывают, что SelFix превосходит предыдущие базовые методы как по качеству реконструкции, так и по точности редактирования.

arxiv arXiv cs.LG · 8 д назад

Кадровая декомпозиция рамки для предварительной настройки прогнозирования рисков

Новая рамка разделяет риски предварительной настройки прогнозирования на внутренние ограничения и вариацию оптимизации. Она доказывает необходимую нижнюю границу уменьшения вариации и вводит стратегию оптимального бюджета для исследования, подтвержденную на синтетических и реальных бенчмарках в трех различных режимах прогнозирования.

arxiv arXiv cs.LG · 8 д назад

Изучаемые графические куски для гетерогенности признаков

Мы предлагаем изучаемые графические куски как наименьшие семантические единицы в графовых данных для решения проблемы гетерогенности признаков без текстовой информации. Наша система использует кодировщики кусков и агрегаторы для извлечения и объединения знаний между областями, что позволяет проводить универсальную предобучку и улучшать производительность на этапе последующей обработки при использовании большего объема предобученных данных.

arxiv arXiv cs.LG · 8 д назад

EnvRL: Использование динамики среды в агентном RL

EnvRL представляет рамку, которая улучшает агентное обучение с помощью вознаграждения за интеграцию динамики среды через прогнозирование состояния и обратные динамические цели. При обучении с использованием GRPO, EnvRL повышает показатели успеха Qwen-2.5-1.5B-Instruct с 72,8% до 77,4% на ALFWorld и с 56,8% до 67,0% на WebShop.

arxiv arXiv cs.LG · 8 д назад

Кадровый кураторский фреймворк с учетом неопределенности

Внутри фреймворка Transfer Teacher вводится оценка степени неопределенности, чтобы улучшить интерпретируемость модели и эффективность обучающих данных. Оценки на CIFAR-10 показывают, что порядок кураторского обучения с учетом неопределенности превосходит случайный порядок на 8,7% при 20% данных, демонстрируя стабильные выгоды в эффективности использования данных. Однако как кураторский, так и анти-кураторский порядок не улучшают точность по сравнению с обычной тренировкой на полных данных, что указывает на то, что улучшения функции оценки сами по себе недостаточны для преодоления неудачных режимов обучения по кураторскому подходу.

arxiv arXiv cs.LG · 8 д назад

Легкие экспериментальные скрытые воспоминания для непрерывного самоулучшения

Новый метод позволяет крупным языковым моделям учиться на собственных следах рассуждений без внешнего контроля. Сжимая вычисления во время инференса в легкие, модульные скрытые воспоминания, модель достигает результатов, сопоставимых с полным обучением, и превосходит базовые подходы без шаблонов и чистого ICL на задачах математического мышления, при минимальных вычислительных затратах.

arxiv arXiv cs.LG · 8 д назад

Законы сохранения для современных нейронных архитектур

Эта статья представляет единый подход к выявлению законов сохранения в потоке градиентов для современных нейронных архитектур. В ней рассматриваются прямые сети с активациями GELU, SiLU и SwiGLU, мультихедовые внимательные механизмы с синусоидальными и вращательными позиционными кодами, а также модели смеси экспертов при различных схемах гейтинга. Эксперименты подтверждают предсказанные инварианты, что поддерживает теоретические результаты.

arxiv arXiv cs.LG · 8 д назад

AnchorKV: Безопасность-ориентированное сжатие кэша КВ с использованием маркера отказа

AnchorKV вводит механизм мягкого штрафа для смещения сохранения токенов кэша КВ от вредоносных направлений запросов. Используя специализированный ключевой проекционный пространственный маркер, полученный из инженерии представлений, он улучшает выравнивание безопасности без значительного ущерба для полезности, предлагая решение, которое легко интегрируется и повышает защиту от атак на проникновение.

arxiv arXiv cs.LG · 8 д назад

MKAN: Монотонные колмогоров-арнольдовые сети с жесткой монотонностью

MKAN представляет колмогоров-арнольдовую сеть с гарантированной жесткой монотонностью для всех значений параметров, достигнутой за счёт экспоненциальной перепараметризации, положительных весов рёбер и монотонного базового активатора. Сеть позволяет использовать стандартную оптимизацию градиентного спуска и предоставляет теорему о представлении, показывающую, что любой извлекатель признаков может быть реализован с монотонной структурой при размере не более чем в два раза больше исходного, что даёт принципиальное правило масштабирования для монотонных кодировщиков.

arxiv arXiv cs.LG · 8 д назад

Размерность определяет условия, при которых модульность помогает в непрерывном обучении

Модульная архитектура усиливает композиционное непрерывное обучение только в низкодименсиональных режимах, где подпространства представлений частично совпадают для схожих задач. В высокодименсиональных режимах как модульные, так и одиночные сети работают одинаково, что указывает на то, что польза модульности зависит от размерности представлений, индуцированной масштабом инициализации.