Training methods
arxiv arXiv cs.LG · 8 д назад

BLITZ: быстрый и калиброванный непараметрический тест независимости условий

BLITZ представляет двухэтапный метод регрессии для непараметрического теста условной независимости. Сначала он удаляет широкие гладкие зависимости с помощью полиномиальной регрессии, затем применяет неглубокие деревянные регрессии для остаточного анализа нелинейных признаков, что позволяет проводить точные и быстрые тесты с улучшенной калибровкой нулевого распределения по сравнению с существующими методами.

arxiv arXiv cs.AI · 8 д назад

STAR: SpatioTemporal Adaptive Reward Allocation для генерации текста-в-изображение в RL после обучения

STAR вводит метод распределения вознаграждения в пространственно-временной области для генерации текста-в-изображение, используя карты внимания для динамического присвоения преимуществ на шагах дезактивации. Оно улучшает семантическую синхронизацию, отображение текста и оптимизацию предпочтений в Stable Diffusion 3.5 Medium, достигая 0.9759, 0.9757 и 23.60 на GenEval, OCR и PickScore соответственно.

arxiv arXiv cs.AI · 8 д назад

C2FL: Кластерное непрерывное федеративное обучение при пространственной и временной дрейфе

C2FL — это распределённый подход к федеративному обучению, который позволяет узлам самоорганизовываться в пространственные кластеры на основе географической близости. Он решает проблему временного дрейфа с помощью комбинации повторного воспроизведения опыта и адаптивного среднего с учётом времени пребывания, позволяя узлам сохранять обновлённые, региональные знания при адаптации к изменяющимся распределениям данных.

arxiv arXiv cs.AI · 8 д назад

Катастрофическое забвение — это низкое ранговое: теория функционального пространства

Теория функционального пространства показывает, что катастрофическое забвение при непрерывной адаптации концентрируется в малом числе старых задач NTK-эйгенмодов. В случае линейного голова PEFT-CL с замороженным основанием, вектор забвения точно предсказуем до численной точности, с правилом Кронекера для уязвимого ранга.

arxiv arXiv cs.AI · 8 д назад

Модели Вольтерры вводят дробную шум для генерации на основе счёта

Модели Вольтерры предлагают непрерывный временной фрейм на основе счёта, используя дробные ядра для введения шума, зависящего от пути, избегая памяти-независимого шумирования в традиционных моделях диффузии. Подход использует конечномерные марковские подъемы и демонстрирует улучшенную генерацию на MNIST и CIFAR-10, при этом мостовой сэмплер повышает стабильность для более крупных моделей.

arxiv arXiv cs.AI · 8 д назад

S4oP: метод прямого упрощения на уровне оператора для эффективной развертывания SSM

S4oP вводит метод постепенного упрощения на уровне оператора для моделей S4 и S4D, снижая стоимость инференса на 70% при сохранении производительности. Подход объединяет структурированное маскирование с мелкой настройкой и одновременно отслеживает точность и задержку, что позволяет эффективно развертывать SSM на устройствах с ограниченными ресурсами.

arxiv arXiv cs.AI · 8 д назад

Изучение справедливых парето-оптимальных политик в многокритериальной робастной обучении

Статья представляет рамку для многополитической многокритериальной робастной обучения, которая обучает набор парето-оптимальных политик, обеспечивающих справедливость в различных предпочтениях пользователей. В ней доказывается, что справедливые политики остаются в выпуклой области покрытия для вогнутых функций благосостояния, таких как GGF, и предлагаются три алгоритма, которые включают нестационарные и стохастические политики для адаптации к историческим несправедливостям. Эмпирические результаты показывают, что эти методы эффективно обучают справедливые политики в различных областях.

arxiv arXiv cs.AI · 8 д назад

Тернарный Мамба: Предобученная QAT для эффективного сжатия SSM

Тернарный Мамба достигает сжатия Мамба-2 в 3,61 раза с помощью групповой квантовой тренировки в предобученном состоянии, снижая память с 2687 до 744 МБ. При использовании только 102 млн токенов и 4 часов на 4 GPU достигается точность 48,1% без подсчета, что соответствует Би-Мамбе с погрешностью 0,9 процентных пунктов, при этом выявляется новая нестабильность, связанная с обучаемыми масштабами квантования и накоплением ошибок в рекурсии.

arxiv arXiv cs.AI · 8 д назад

Переиспользование метакnowledge в обучении с усилением

Новый фреймворк обучает уровень задач на упрощенном агенте и передает полученные знания на гетерогенные агенты. Он использует байесовские не-параметрические предпосылки и высокий уровень политики для генерации руководства по задачам, при этом применяет интерфейс семантической величины и временной адаптер для синхронизации метакnowledge с контроллерами, специфичными для воплощения. Эксперименты показывают снижение ошибки отслеживания на последнем шаге от 94,75% до 99,79% и сопоставимую производительность при использовании 23,8% данных взаимодействия по сравнению с методами передовых технологий.

arxiv arXiv cs.AI · 8 д назад

Колмогоровская регрессия для устойчивых диффузионных политик

Обратное уравнение Колмогорова поднимает диффузионные политики в пространство Камерона-Мартин, заменяя стохастическую сопоставимость на детерминированное дифференциальное уравнение. Этот подход достигает границ сходимости, связанных с эффективным рангом ядра, улучшает регулярность траектории и включает детектор сбоев без вознаграждений, показывая на 17% больший результат и на 67,6% меньшее дрейф на PushT, а также на 28,4% меньшую RMSE с идеальным обнаружением узкого места на производственной линии. Теория гамильтон-якоби снижает количество сбоев в симуляциях на 96%.

arxiv arXiv cs.AI · 8 д назад

FPRM: модель с адаптивным вычислением на основе фиксированной точки

FPRM — это модель на основе трансформера, которая использует фиксированную точку сходимости как механизм остановки в циклической архитектуре. Она адаптирует вычисления в зависимости от сложности задачи, используя фиксированную точку рассуждения, и превосходит базовые модели на задачах Sudoku, Maze, отслеживания состояния и ARC-AGI.

arxiv arXiv cs.AI · 8 д назад

Модели циклического мира обеспечивают эффективность на 100x

Модели циклического мира (LoopWM) вводят архитектуру на основе циклов, которая последовательно уточняет скрытые состояния среды с использованием трансформатора с общей параметризацией. Этот подход обеспечивает эффективность параметров до 100x по сравнению с традиционными моделями мира, адаптируя глубину вычислений под сложность каждой предсказываемой величины.

arxiv arXiv cs.CL · 8 д назад

Отрицательная фильтрация токенов для стабильного одноразового обучения RL

Новый подход, называемый отрицательной фильтрацией токенов, обеспечивает стабильное одноразовое обучение RL за счёт предотвращения ложных штрафов на отрицательных образцах. Метод улучшает производительность на агентских задачах по сравнению с групповыми методами RL, при этом соответствует групповым методам по задачам логического мышления.

arxiv arXiv cs.CL · 8 д назад

Анализ выразительности иерархических моделей в глубоких трансформерах

В этой статье проводится анализ выразительности глубоких трансформеров с использованием ограниченных грамматик. Авторы строят трансформеры с позиционным вниманием, при котором глубина модели растет линейно с глубиной грамматики, а количество нейронов растет квадратично с числом правил вывода. Результаты подтверждают гипотезу о линейной представимости, показывая, что такие модели могут кодировать абстрактные грамматические состояния в низкодименсиональных линейно разделимых подпространствах.

arxiv arXiv cs.CL · 8 д назад

Декодирование NAR-MBR для быстрой и точной распознавания речи

Декодирование NAR-MBR улучшает распознавание речи за счёт максимизации ожидаемой полезности от отобранных выходов неавторегрессивных моделей. Оно обеспечивает лучшие результаты по сравнению с предыдущими методами NAR и работает быстрее, чем авторегрессивное декодирование, на нескольких корпусах.

arxiv arXiv cs.CL · 8 д назад

EnvRL: Использование динамики среды в агентном обучении с помощью вознаграждений

EnvRL представляет рамку, которая улучшает агентное обучение с вознаграждением за счет включения динамики среды через прогнозирование состояния и обратные динамические цели. Оно обеспечивает значительное увеличение показателей успеха на задачах с длинными горизонтами, улучшая производительность Qwen-2.5-1.5B-Instruct с 72,8% до 77,4% на ALFWorld и с 56,8% до 67,0% на WebShop при обучении с использованием GRPO.

arxiv arXiv cs.CL · 8 д назад

Обучение LLM для среды обучения RL с многомодульным рассуждением

Фреймворк LLM-как-инженер-среды использует LLM для автоматического перестройки сред обучения в области робастного обучения, анализируя траектории неудач и контекстуальные данные. На тестовой платформе MAPF-FrozenLake он превосходит более крупные проприетарные LLM и базовые статичные среды, при этом Qwen3-4B достигает наилучшей общей производительности. Анализ показывает, что доказательства неудач и сохранённые рабочие конфигурации являются ключевыми, и текущий чекпоинт RL показывает лучшую производительность, чем базовая модель как инженер среды.

arxiv arXiv cs.CL · 8 д назад

SuCo: адаптивное обоснованное рассуждение, основанное на достаточности

SuCo вводит минимально достаточное рассуждение (MSC) как самое короткое начало рассуждения, достаточное для получения правильного ответа. Оно использует двухэтапную систему обучения — настройку MSC и оптимизацию политики с учетом достаточности — для сокращения длины рассуждения при сохранении или улучшении точности на задачах по математике, программированию и науке.

arxiv arXiv cs.CL · 8 д назад

Динамическое редактирование последовательности уменьшает перегрузку мышления в моделях рассуждений, обученных методом релей-обучения

Динамическое редактирование последовательности (DRE) решает проблему перегрузки мышления в моделях рассуждений, обученных методом релей-обучения, путем модификации успешных траекторий после появления ответа. DRE сохраняет правильный предварительный этап рассуждения, при этом редактирует ненужные продолжения, ослабляя кредит, присваиваемый избыточным рассуждениям, без наказания за корректные рассуждения. Эксперименты на различных задачах демонстрируют его эффективность в снижении перегрузки мышления.

media r/LocalLLaMA · 9 д назад

Тред о создании модели сообщества: возможна краудсорсированная тренировка

Модель сообщества может быть создана с использованием краудсорсированного вычислительного ресурса с помощью подхода 'Ветвь-Тренировка-Сшивка'. Участники тренируют прототипную модель на своих устройствах, отправляют подмодели с узкими областями применения, а организаторы соединяют их в крупную модель на основе смеси экспертов (MoE), при этом ключевые решения включают размер прототипа, определение областей применения и протоколы тренировки.