Training methods — korshunov.ai

Training methods Страница 1 / 12

Модели циклического мира достигают эффективности в 100 раз

Модели циклического мира (LoopWM) вводят архитектуру на основе циклов, которая последовательно уточняет скрытые состояния среды с использованием трансформатора с общей параметризацией. Этот подход обеспечивает эффективность в 100 раз по сравнению с традиционными моделями мира за счёт адаптации глубины вычислений к каждому шагу предсказания, предлагая новую размерность масштабирования для моделирования мира.

arxiv arXiv cs.CL · 8 д назад

ZPPO: Учитель в промптах, а не в градиентах

Зона проксимальной оптимизации политики (ZPPO) интегрирует знания учителя прямо в промпты, а не в градиенты политики. Используя двоичные и отрицательные кандидаты с включёнными вопросами, ZPPO выявляет недостатки учащихся и усиливает обучение через буфер повторного использования промптов, достигая превосходных результатов на сложных вопросах на различных масштабах учащихся, особенно при использовании малых моделей.

arxiv arXiv cs.CL · 8 д назад

Переменные ширинные трансформеры превосходят однородные архитектуры

Новая архитектура трансформера в форме креста распределяет разную ширину слоев, расширяя ранние и поздние слои, при этом сужая средние. Это приводит к уменьшению средней ширины слоя, что позволяет сократить количество FLOP на 22% и объемы кэша KV на 15%, при этом превосходя однородные базовые модели по потере при моделировании языка в диапазоне от 200 миллионов до 2 миллиардов параметров.

Модели циклического мира достигают эффективности в 100 раз

ZPPO: Учитель в промптах, а не в градиентах

Переменные ширинные трансформеры превосходят однородные архитектуры

MGUP: Моментум-Градиентное Согласование для Селективной Оптимизации

ReLAR: Регулирование скрытых состояний на основе репликации для стабильного рассуждения больших языковых моделей

NMF с топологической регуляризацией для интерпретируемых базисов

CARLOS: Глубокое обучение для непрерывного оптимального останова

Обратное обучение Q: Новый алгоритм офф-полицейского обучения

SCBoost: Уменьшение избыточности обучаемых моделей за счёт ортогонализации остатков

Credit-in-Event: Восстановление кредитов событий в динамических моделях

SelFix: корневой выбор фиксированного точки инверсии для прямоугольных потоков через прямолинейность траектории

Кадровая декомпозиция рамки для предварительной настройки прогнозирования рисков

Изучаемые графические куски для гетерогенности признаков

EnvRL: Использование динамики среды в агентном RL

Кадровый кураторский фреймворк с учетом неопределенности

Легкие экспериментальные скрытые воспоминания для непрерывного самоулучшения

Законы сохранения для современных нейронных архитектур

AnchorKV: Безопасность-ориентированное сжатие кэша КВ с использованием маркера отказа

MKAN: Монотонные колмогоров-арнольдовые сети с жесткой монотонностью

Размерность определяет условия, при которых модульность помогает в непрерывном обучении