Training methods
arxiv arXiv cs.LG · 6 д назад

Капсулы состояния выполнения для низкозадержанного выполнения ИИ на устройстве

Капсулы состояния выполнения позволяют производить контрольные точки и восстановление полного состояния выполнения графа, включая состояния КВ, рекуррентные и конволюционные, что обеспечивает низкую задержку и эффективное выполнение небольших пакетов на устройстве для ИИ. На RTX 5090 и Jetson AGX Thor восстановление капсулы обеспечивает точность на уровне байтов и идентичности токенов, с операциями на GPU менее миллисекунды и ускорением TTFT до 27x при 16k токенах, что демонстрирует значительное снижение задержки в интерактивных рабочих процессах ИИ.

arxiv arXiv cs.LG · 6 д назад

Многоцелевая байесовская система обучения в контексте

Новая многоцелевая система обучения в контексте позволяет осуществлять амортизированную иерархическую байесовскую инференцию, представляя информацию о предыдущих данных в виде префикса в наборах данных. Трансформерная модель адаптирует прогнозы между семействами предыдущих данных, достигая производительности, соответствующей идеальной модели, на различных задачах, при этом значительно ускоряясь. Она была проверена на реальных спектрально-временных прогнозах температуры.

arxiv arXiv cs.LG · 6 д назад

Калибровка в моделях на основе смеси экспертов при смещении распределения

Эта статья исследует, как модели на основе смеси экспертов сохраняют калибровку при смещении распределения. Авторы показывают, что калибровка на уровне экспертов обеспечивает общую калибровку в жестко-пропускаемых моделях, но недостаточна для мягко-пропускаемых моделей. Авторы предлагают противоречивую пересылку для штрафования ошибок калибровки в агрегатах маршрутизации, улучшая баланс между точностью и калибровкой при различных задачах и смещениях.

arxiv arXiv cs.LG · 6 д назад

Ли-алгебраическое внимание: токены элементов группы в нейронных сетях

Ли-алгебраическое внимание вводит токены как элементы матричных групп Ли, используя замкнутую алгебраическую норму относительных положений как оценки внимания. Метод достигает инвариантного и эквивариантного внимания без компонент теории представлений, превосходя векторные базовые модели на SE(2), SO(3) и Aff(2) с меньшим количеством параметров и без обучаемых ядер.

arxiv arXiv cs.AI · 6 д назад

Лёгкий как процесс-верифицированный оракул вознаграждения в RL для доказательства теорем

Эта работа показывает, что Lean может служить симметрическим оракулом процесса, предоставляя детализированные, верифицированные сигналы обратной связи во время обучения с усилением. Разбивая попытки доказательства на последовательности тактик и используя элаборацию Lean для выделения корректных шагов и первых сбоев, система генерирует плотные сигналы вознаграждения, основанные на типовой теории. Эксперименты демонстрируют, что надзор на уровне тактик превосходит методы, основанные только на результатах, на бенчмарках, таких как MiniF2F и ProofNet, что подчёркивает роль Lean как оценщика и источника вознаграждения для обучения.

arxiv arXiv cs.AI · 6 д назад

Изучаемое глобальное слияние для переменной длины токенизации в трансформерах диффузии

Новый токенизатор с переменной длиной использует изучаемое глобальное слияние для обеспечения сопоставления представлений разной длины в моделях диффузии. Этот подход, независимый от данных, преодолевает позиционные семантики и улучшает соотношение качества и вычислительных затрат при генерации изображений ImageNet 256×25-6 по сравнению с предыдущими методами.

arxiv arXiv cs.AI · 6 д назад

Оптимизация на основе эволюционных методов в пространстве остатков через модели генеративных потоков

Модель-агностичная система объединяет редактирование на основе потоков с эволюционными алгоритмами для обеспечения редактирования данных в ненаблюдаемых условиях. Она работает в пространстве остатков, используя самопропагацию для локальной оптимизации и перекрестное скрещивание для широкого поиска, что было проверено на данных MorphoMNIST и кристаллов для достижения баланса между соответствием цели, сохранением экземпляров и разнообразием.

arxiv arXiv cs.AI · 6 д назад

Внимание-ориентированный SAC для прогнозирования пористости в аддитивном производстве

Многоуровневый экстрактор признаков на основе внимания, интегрированный с Soft Actor-Critic, улучшает прогнозирование пористости и оптимизацию параметров процесса в лазерной сварке порошков. Метод достиг значения сходимости 322,79 за 14 эпизодов, превосходя DQN, PPO, TD3 и обычный SAC по скорости сходимости и стабильности.

arxiv arXiv cs.AI · 6 д назад

Гибридный диффузионный трансформер для редактирования аудио с использованием инструкций

Гибридная двухэтапная архитектура диффузионного трансформера обеспечивает эффективное и точное редактирование аудио с использованием инструкций. Она использует семантическую синхронизацию от грубого к детальному уровню через совместное внимание на низком разрешении, а затем уточнение редактирования с помощью альтернирующего совместного и перекрестного внимания на высоком разрешении. Метод обеспечивает лучшие результаты на сложных задачах редактирования с улучшенной эффективностью и компактной моделью.

arxiv arXiv cs.AI · 6 д назад

Сенсорно-моторные модели мира для восприятия, синхронизированного с действиями

Новая сенсорно-моторная модель мира (SMWM) обучает компактные, действия-связанные скрытые представления на основе отложенных траекторий. Она использует регуляризацию обратных динамик для предотвращения коллапса представлений и синхронизирует скрытые состояния с управляемыми степенями свободы окружающей среды, обеспечивая стабильное обучение без сложных регуляторов или замороженных компонентов. SMWM достигает конкурентоспособной производительности планирования в задачах 2D и 3D управления.

arxiv arXiv cs.AI · 6 д назад

Частотно-осознанное совпадение потоков для генерации действий робота

Частотно-осознанное совпадение потоков (FAFM) обеспечивает непрерывную и временно согласованную генерацию действий робота за счет преобразования дискретных последовательностей действий в частотную область с помощью дискретного косинусного преобразования. Оно регулирует первые временные производные с помощью ограничения типа Соболева для обеспечения плавных действий, повышая вероятность успеха, плавность движений и устойчивость при выполнении синтетических и реальных задач без добавления параметров в сеть.

arxiv arXiv cs.AI · 6 д назад

RACL: Слой управления агентом для мета-оптимизации обучения

RACL вводит агента принятия решений, который управляет поведением мета-оптимизационного поиска, не заменяя оптимизаторы или изменяя ограничения. Он улучшает или сохраняет ключевые политики в экспериментах по маршрутизации транспортных средств, снижая среднюю стоимость на 8,337% по сравнению с Fixed и на 1,605% по сравнению с политиками, активированными при стагнации, без значительного увеличения вычислительной нагрузки.

arxiv arXiv cs.AI · 6 д назад

Гибридная система ANN-SNN с локальной пластичностью

Гибридная система ANN-SNN использует предобученные энкодеры EfficientNet и преобразует их активации в импульсные последовательности с помощью кодирования скорости. Система обучает спайковый классификатор CoLaNET с локальными правилами пластичности, достигая точности 99,09% на тестовом наборе ImageNet из 64 классов, что соответствует традиционным глубоким сетям.

arxiv arXiv cs.AI · 6 д назад

Модульная спарсность синхронизации для обучения PINN

ModSync решает проблему потери способности в PINN за счёт предотвращения функциональной модульности и само-разделения перепараметризованных сетей. Оно усиливает взаимодействие между целями за счёт структурной оптимизации, которая штрафует специализированные соединения, при этом сохраняя пути, способствующие взаимодействию.

arxiv arXiv cs.AI · 6 д назад

Граничное встраивание для расщепления структуры графа

Граничное встраивание (BES) решает проблему взаимосвязи структуры графа, подавляя спорные корреляции соседей вблизи границ классов. BES использует адаптивное контрастное обучение для усиления дискриминации границ, что повышает точность классификации узлов в GCN в среднем на 3,3% (до 5,0% на WikiCS) и обеспечивает превосходную точность предсказания связей.

arxiv arXiv cs.LG · 6 д назад

Обучение больших языковых моделей для агентов с длительным жизненным циклом через перекрестную обобщение в разных областях

Новый фреймворк позволяет большим языковым моделям развивать способность "Соединить точки", что позволяет агентам с длительным жизненным циклом учиться на опыте и итеративно обновлять контекст своей среды. Фреймворк использует обучение с помощью вознаграждений с длинными последовательностями и пользовательскими задачами, чтобы стимулировать перекрестное обобщение в разных областях, демонстрируя эффективную работу вне распределения как в одной области, так и при переходах между областями.

arxiv arXiv cs.LG · 6 д назад

StreamKL: Быстрый и память-эффективный KL-разброс для дистилляции внимания

StreamKL вводит синтезированную GPU-примитив, которая устраняет квадратичное использование памяти в дистилляции внимания за счёт потока кусков запрос-ключ через внутреннюю память SRAM. Оно обеспечивает ускорение до 43 раз в прямом и до 14 раз в обратном проходе, снижая дополнительную площадь HBM от O(N_QN_K) до O(1), что позволяет проводить дистилляцию длинных контекстов на одном GPU.

arxiv arXiv cs.LG · 6 д назад

VIMPO: критерий-бесплатная оптимизация политики для больших языковых моделей

VIMPO представляет метод критерий-бесплатной оптимизации политики, который получает функцию значений, имплицированную политикой, из обучения по репликации с регуляризацией КЛ. Он позволяет интегрировать вознаграждение с верификацией без обучения критерия и превосходит GRPO на математических тестах, особенно при шумных вознаграждениях.

arxiv arXiv cs.LG · 6 д назад

Контроль на основе LLM в многоконтролируемых играх

Характеристика иерархической системы, использующей предобученный LLM для выбора политик RL-навыков, превосходит плоскую RL в среде 2v2 King of the Hill. Она соответствует показателю эффективности, достигнутому при ручной разработке дерева поведения, и воспринимается как более человеческая на 60% пользователей, что подчеркивает эффективную координацию и адаптивность без ручного проектирования правил.

arxiv arXiv cs.LG · 6 д назад

Информационный анализ эффективного надзора в скрытой цепочке мыслей

Эта статья выявляет двойное падение в скрытой логике: затухание градиента и дрейф представлений. Предлагается траекториальный и пространственный надзор, показывая, что генеративное восстановление сохраняет информационную емкость лучше, чем геометрическое сжатие. Единый скрытый анализ измеряет взаимную информацию между скрытыми траекториями и шагами рассуждения, выявляя связь между информацией и производительностью в точности рассуждений.