Training methods — korshunov.ai

Training methods Страница 1 / 12

EnvRL: Использование динамики среды в агентном RL

EnvRL представляет рамку, которая улучшает агентное обучение с помощью вознаграждения за интеграцию динамики среды через прогнозирование состояния и обратные динамические цели. При обучении с использованием GRPO, EnvRL повышает показатели успеха Qwen-2.5-1.5B-Instruct с 72,8% до 77,4% на ALFWorld и с 56,8% до 67,0% на WebShop.

arxiv arXiv cs.LG · 8 д назад

Кадровый кураторский фреймворк с учетом неопределенности

Внутри фреймворка Transfer Teacher вводится оценка степени неопределенности, чтобы улучшить интерпретируемость модели и эффективность обучающих данных. Оценки на CIFAR-10 показывают, что порядок кураторского обучения с учетом неопределенности превосходит случайный порядок на 8,7% при 20% данных, демонстрируя стабильные выгоды в эффективности использования данных. Однако как кураторский, так и анти-кураторский порядок не улучшают точность по сравнению с обычной тренировкой на полных данных, что указывает на то, что улучшения функции оценки сами по себе недостаточны для преодоления неудачных режимов обучения по кураторскому подходу.

arxiv arXiv cs.LG · 8 д назад

Легкие экспериментальные скрытые воспоминания для непрерывного самоулучшения

Новый метод позволяет крупным языковым моделям учиться на собственных следах рассуждений без внешнего контроля. Сжимая вычисления во время инференса в легкие, модульные скрытые воспоминания, модель достигает результатов, сопоставимых с полным обучением, и превосходит базовые подходы без шаблонов и чистого ICL на задачах математического мышления, при минимальных вычислительных затратах.

arxiv arXiv cs.LG · 8 д назад

Законы сохранения для современных нейронных архитектур

Эта статья представляет единый подход к выявлению законов сохранения в потоке градиентов для современных нейронных архитектур. В ней рассматриваются прямые сети с активациями GELU, SiLU и SwiGLU, мультихедовые внимательные механизмы с синусоидальными и вращательными позиционными кодами, а также модели смеси экспертов при различных схемах гейтинга. Эксперименты подтверждают предсказанные инварианты, что поддерживает теоретические результаты.

arxiv arXiv cs.LG · 8 д назад

AnchorKV: Безопасность-ориентированное сжатие кэша КВ с использованием маркера отказа

AnchorKV вводит механизм мягкого штрафа для смещения сохранения токенов кэша КВ от вредоносных направлений запросов. Используя специализированный ключевой проекционный пространственный маркер, полученный из инженерии представлений, он улучшает выравнивание безопасности без значительного ущерба для полезности, предлагая решение, которое легко интегрируется и повышает защиту от атак на проникновение.

arxiv arXiv cs.LG · 8 д назад

MKAN: Монотонные колмогоров-арнольдовые сети с жесткой монотонностью

MKAN представляет колмогоров-арнольдовую сеть с гарантированной жесткой монотонностью для всех значений параметров, достигнутой за счёт экспоненциальной перепараметризации, положительных весов рёбер и монотонного базового активатора. Сеть позволяет использовать стандартную оптимизацию градиентного спуска и предоставляет теорему о представлении, показывающую, что любой извлекатель признаков может быть реализован с монотонной структурой при размере не более чем в два раза больше исходного, что даёт принципиальное правило масштабирования для монотонных кодировщиков.

arxiv arXiv cs.LG · 8 д назад

Размерность определяет условия, при которых модульность помогает в непрерывном обучении

Модульная архитектура усиливает композиционное непрерывное обучение только в низкодименсиональных режимах, где подпространства представлений частично совпадают для схожих задач. В высокодименсиональных режимах как модульные, так и одиночные сети работают одинаково, что указывает на то, что польза модульности зависит от размерности представлений, индуцированной масштабом инициализации.

arxiv arXiv cs.LG · 8 д назад

KANLib: Модульная и эффективная система Колмогорова-Арнольда

KANLib представляет модульную, расширяемую и вычислительно эффективную систему Колмогорова-Арнольда. Она объединяет ключевые концепции из PyKAN, EfficientKAN и FastKAN, поддерживает адаптивную перескалировку сетки и мелкую настройку архитектуры, при этом сохраняя совместимость с PyTorch. Эксперименты на датасете Калифорнийского жилья показывают, что KANLib достигает конкурентной эффективности и воспроизводит установленные результаты работы KAN.

arxiv arXiv cs.LG · 8 д назад

SoftMoE: мягкая дифференцируемая маршрутизация для смеси экспертов в больших языковых моделях

SoftMoE заменяет дискретную маршрутизацию top-k на дифференцируемую мягкую версию top-k LapSum, что позволяет проводить градиентную оптимизацию выбора экспертов. Он обучает распределять активацию экспертов неравномерно по слоям, при этом более глубокие слои активируют больше экспертов, при этом используя значительно меньше экспертов, чем традиционные редкие смеси экспертов.

arxiv arXiv cs.LG · 8 д назад

Дифференциальная приватность в выборке постериорного распределения гауссового процесса

Выборка постериорного распределения гауссового процесса врожденно обеспечивает дифференциальную приватность из-за своей внутренней случайности. Явные оценки Реньи-ДП показывают, что приватность зависит от регуляризации в виде баланса, при этом атаки на определение членства подтверждают предсказанные паттерны утечки. Добавление калиброванного шума гауссового процесса улучшает приватность, сохраняя полезность в последующих задачах.

arxiv arXiv cs.LG · 8 д назад

C2FL: Кластерное непрерывное федеративное обучение при пространственной и временной дрейфе

C2FL — это распределённый подход к федеративному обучению, который позволяет узлам самоорганизовываться в пространственные кластеры на основе географической близости. Он решает проблему временного дрейфа за счёт комбинации повторного воспроизведения опыта и адаптивного среднего с учётом времени пребывания, позволяя узлам сохранять обновлённые, региональные знания при адаптации к изменяющимся условиям окружающей среды.

arxiv arXiv cs.LG · 8 д назад

BLITZ: быстрый и калиброванный непараметрический тест независимости условий

BLITZ представляет двухэтапный метод регрессии для непараметрического теста условной независимости. Сначала он удаляет широкие гладкие зависимости с помощью полиномиальной регрессии, затем применяет неглубокие деревянные регрессии для остаточного анализа нелинейных признаков, что позволяет проводить точные и быстрые тесты с улучшенной калибровкой нулевого распределения по сравнению с существующими методами.

arxiv arXiv cs.AI · 8 д назад

STAR: SpatioTemporal Adaptive Reward Allocation для генерации текста-в-изображение в RL после обучения

STAR вводит метод распределения вознаграждения в пространственно-временной области для генерации текста-в-изображение, используя карты внимания для динамического присвоения преимуществ на шагах дезактивации. Оно улучшает семантическую синхронизацию, отображение текста и оптимизацию предпочтений в Stable Diffusion 3.5 Medium, достигая 0.9759, 0.9757 и 23.60 на GenEval, OCR и PickScore соответственно.

arxiv arXiv cs.AI · 8 д назад

C2FL: Кластерное непрерывное федеративное обучение при пространственной и временной дрейфе

C2FL — это распределённый подход к федеративному обучению, который позволяет узлам самоорганизовываться в пространственные кластеры на основе географической близости. Он решает проблему временного дрейфа с помощью комбинации повторного воспроизведения опыта и адаптивного среднего с учётом времени пребывания, позволяя узлам сохранять обновлённые, региональные знания при адаптации к изменяющимся распределениям данных.

arxiv arXiv cs.AI · 8 д назад

Катастрофическое забвение — это низкое ранговое: теория функционального пространства

Теория функционального пространства показывает, что катастрофическое забвение при непрерывной адаптации концентрируется в малом числе старых задач NTK-эйгенмодов. В случае линейного голова PEFT-CL с замороженным основанием, вектор забвения точно предсказуем до численной точности, с правилом Кронекера для уязвимого ранга.

arxiv arXiv cs.AI · 8 д назад

Модели Вольтерры вводят дробную шум для генерации на основе счёта

Модели Вольтерры предлагают непрерывный временной фрейм на основе счёта, используя дробные ядра для введения шума, зависящего от пути, избегая памяти-независимого шумирования в традиционных моделях диффузии. Подход использует конечномерные марковские подъемы и демонстрирует улучшенную генерацию на MNIST и CIFAR-10, при этом мостовой сэмплер повышает стабильность для более крупных моделей.

arxiv arXiv cs.AI · 8 д назад

S4oP: метод прямого упрощения на уровне оператора для эффективной развертывания SSM

S4oP вводит метод постепенного упрощения на уровне оператора для моделей S4 и S4D, снижая стоимость инференса на 70% при сохранении производительности. Подход объединяет структурированное маскирование с мелкой настройкой и одновременно отслеживает точность и задержку, что позволяет эффективно развертывать SSM на устройствах с ограниченными ресурсами.

arxiv arXiv cs.AI · 8 д назад

Изучение справедливых парето-оптимальных политик в многокритериальной робастной обучении

Статья представляет рамку для многополитической многокритериальной робастной обучения, которая обучает набор парето-оптимальных политик, обеспечивающих справедливость в различных предпочтениях пользователей. В ней доказывается, что справедливые политики остаются в выпуклой области покрытия для вогнутых функций благосостояния, таких как GGF, и предлагаются три алгоритма, которые включают нестационарные и стохастические политики для адаптации к историческим несправедливостям. Эмпирические результаты показывают, что эти методы эффективно обучают справедливые политики в различных областях.

arxiv arXiv cs.AI · 8 д назад

Тернарный Мамба: Предобученная QAT для эффективного сжатия SSM

Тернарный Мамба достигает сжатия Мамба-2 в 3,61 раза с помощью групповой квантовой тренировки в предобученном состоянии, снижая память с 2687 до 744 МБ. При использовании только 102 млн токенов и 4 часов на 4 GPU достигается точность 48,1% без подсчета, что соответствует Би-Мамбе с погрешностью 0,9 процентных пунктов, при этом выявляется новая нестабильность, связанная с обучаемыми масштабами квантования и накоплением ошибок в рекурсии.

arxiv arXiv cs.AI · 8 д назад

Переиспользование метакnowledge в обучении с усилением

Новый фреймворк обучает уровень задач на упрощенном агенте и передает полученные знания на гетерогенные агенты. Он использует байесовские не-параметрические предпосылки и высокий уровень политики для генерации руководства по задачам, при этом применяет интерфейс семантической величины и временной адаптер для синхронизации метакnowledge с контроллерами, специфичными для воплощения. Эксперименты показывают снижение ошибки отслеживания на последнем шаге от 94,75% до 99,79% и сопоставимую производительность при использовании 23,8% данных взаимодействия по сравнению с методами передовых технологий.