Training methods
arxiv arXiv cs.AI · 6 д назад

Калибровка в моделях на основе смеси экспертов при смещении распределения

Эта статья исследует, как модели на основе смеси экспертов сохраняют калибровку при смещении распределения. Авторы показывают, что калибровка на уровне экспертов обеспечивает общую калибровку в моделях с жестким маршрутизацией, но недостаточна для моделей с мягким маршрутизацией. Авторы предлагают противоречивую пересадку, чтобы штрафовать ошибки калибровки в маршрутизированных агрегатах, улучшая баланс между точностью и калибровкой при различных задачах и смещениях.

arxiv arXiv cs.LG · 6 д назад

Прямая оценка выгоды для частично наблюдаемых областей

Прямая оценка выгоды (DAE) расширяется на частично наблюдаемые области с минимальными изменениями. Дискретная модель скрытых динамик снижает вычислительную нагрузку за счёт эффективного приближения вероятностей переходов, что позволяет использовать масштабируемую и эффективную по образцам глубинную робастную обучение в пространствах высокой размерности наблюдений.

arxiv arXiv cs.LG · 6 д назад

Временные вложения не нужны в моделях диффузии

Исследование показывает, что модели диффузии могут достигать глобальных минимумов без явных временных вложений. Исследования с использованием методов исключения на данных CelebA и CIFAR-10 показывают, что временно-независимые модели сохраняют высокую точность и превосходят модели с условием по FID, точности и полноте.

arxiv arXiv cs.LG · 6 д назад

DeepGaLA: нейронные заменители с неопределенностью для обратных задач в дифференциальных уравнениях

DeepGaLA — это нейронная сеть-заместитель, обеспечивающая прогнозы с учетом неопределенности для обратных задач в дифференциальных уравнениях. Он обеспечивает точность, сравнимую с гауссовыми процессами-заместителями, при сохранении эффективности в высокомерных пространствах параметров и учете дифференциальных уравнений.

arxiv arXiv cs.LG · 6 д назад

Механическое исследование сохранения представлений в непрерывном обучении

Синтетическая рамка показывает, что суперпозиция увеличивается со временем с кратковременными падениями на границах задач, что указывает на интерференцию, специфичную для границ. Более высокая спарсность признаков способствует суперпозиции без неизбежного забвения, при условии, что сила представлений сохраняется. Уровень эффективности ранга на уровне задач растет с ростом спарсности, что демонстрирует более широкое использование возможностей при спарсных условиях.

arxiv arXiv cs.LG · 6 д назад

Двухэтапная эволюционная оптимизация гиперпараметров для PINNs

Двухэтапная эволюционная стратегия повышает производительность физически обусловленных нейронных сетей за счет предварительного отбора кандидатов гиперпараметров с помощью низкокачественной тренировки, а затем уточнения лучших кандидатов с помощью градиентной оптимизации. Метод значительно снижает среднюю ошибку при решении задач для уравнений адвекции, Клинга-Гордона и Гельмгольца при фиксированных вычислительных ресурсах.

arxiv arXiv cs.LG · 6 д назад

Переиспользование классификатора речи для генерации на основе диффузии

Предварительно обученный классификатор речи переиспользуется как основа для генерации речи на основе диффузии. При присоединении легкого подсети и обучении ее методом сопоставления сценария устранения шума, подход достигает высокого качества речи при снижении памяти и вычислительных затрат, используя один модель вместо двух отдельно обученных компонентов.

arxiv arXiv cs.LG · 6 д назад

UltraQuant: 4-битное кэширование KV для агентов с большим контекстом

UltraQuant представляет метод 4-битного кэширования KV, разработанный специально для рабочих нагрузок агентов с большим контекстом. Он обеспечивает сокращение времени до первого токена на поздних этапах на 3,47 раза и увеличение пропускной способности вывода на 1,63 раза по сравнению с кэшированием KV в формате FP8, используя запросы в формате FP8, тензоры KV в формате FP4 и поддержку native AMD CDNA4 scaled-MFMA.

arxiv arXiv cs.LG · 6 д назад

Сбор межгруппового преимущества для самоэволюции агентов, основанных на памяти

В этой статье представлено Межгрупповое накопление преимуществ (MAA), архитектуру постобработки, которая решает проблему несогласованности между группами в самоэволюции агентов, основанных на памяти. MAA формализует сопоставимость и согласованность как структурные условия, использует дифференциальные сигналы и экспоненциальное скользящее среднее для накопления знаковых доказательств на операции, и обеспечивает отслеживаемость за счёт слияния семантических идентификаторов. В 14 из 16 случаев MAA превосходит базовые решения на уровне групп и снижает потребление токенов на 75%.

arxiv arXiv cs.LG · 6 д назад

Оценка энтропии в системах с несколькими кутритами с помощью нейронных сетей

Исследование сравнивает вариационные квантовые алгоритмы и классические CNN для оценки вон-Неймана энтропии в системах с несколькими кутритами. CNN достигают точных и стабильных предсказаний при использовании только 12,5% измерений полной томографии состояния, достигая ошибок на 90-м процентиле от 0,13 до 0.16 натов для систем из четырех и пяти кутритов, демонстрируя систематическое улучшение с ростом размера системы и устойчивость к шуму.

arxiv arXiv cs.LG · 6 д назад

Капсулы состояния выполнения для низкозадержанного выполнения ИИ на устройстве

Капсулы состояния выполнения позволяют производить контрольные точки и восстановление полного состояния выполнения графа, включая состояния КВ, рекуррентные и конволюционные, что обеспечивает низкую задержку и эффективное выполнение небольших пакетов на устройстве для ИИ. На RTX 5090 и Jetson AGX Thor восстановление капсулы обеспечивает точность на уровне байтов и идентичности токенов, с операциями на GPU менее миллисекунды и ускорением TTFT до 27x при 16k токенах, что демонстрирует значительное снижение задержки в интерактивных рабочих процессах ИИ.

arxiv arXiv cs.LG · 6 д назад

Многоцелевая байесовская система обучения в контексте

Новая многоцелевая система обучения в контексте позволяет осуществлять амортизированную иерархическую байесовскую инференцию, представляя информацию о предыдущих данных в виде префикса в наборах данных. Трансформерная модель адаптирует прогнозы между семействами предыдущих данных, достигая производительности, соответствующей идеальной модели, на различных задачах, при этом значительно ускоряясь. Она была проверена на реальных спектрально-временных прогнозах температуры.

arxiv arXiv cs.LG · 6 д назад

Калибровка в моделях на основе смеси экспертов при смещении распределения

Эта статья исследует, как модели на основе смеси экспертов сохраняют калибровку при смещении распределения. Авторы показывают, что калибровка на уровне экспертов обеспечивает общую калибровку в жестко-пропускаемых моделях, но недостаточна для мягко-пропускаемых моделей. Авторы предлагают противоречивую пересылку для штрафования ошибок калибровки в агрегатах маршрутизации, улучшая баланс между точностью и калибровкой при различных задачах и смещениях.

arxiv arXiv cs.LG · 6 д назад

Ли-алгебраическое внимание: токены элементов группы в нейронных сетях

Ли-алгебраическое внимание вводит токены как элементы матричных групп Ли, используя замкнутую алгебраическую норму относительных положений как оценки внимания. Метод достигает инвариантного и эквивариантного внимания без компонент теории представлений, превосходя векторные базовые модели на SE(2), SO(3) и Aff(2) с меньшим количеством параметров и без обучаемых ядер.

arxiv arXiv cs.AI · 6 д назад

Лёгкий как процесс-верифицированный оракул вознаграждения в RL для доказательства теорем

Эта работа показывает, что Lean может служить симметрическим оракулом процесса, предоставляя детализированные, верифицированные сигналы обратной связи во время обучения с усилением. Разбивая попытки доказательства на последовательности тактик и используя элаборацию Lean для выделения корректных шагов и первых сбоев, система генерирует плотные сигналы вознаграждения, основанные на типовой теории. Эксперименты демонстрируют, что надзор на уровне тактик превосходит методы, основанные только на результатах, на бенчмарках, таких как MiniF2F и ProofNet, что подчёркивает роль Lean как оценщика и источника вознаграждения для обучения.

arxiv arXiv cs.AI · 6 д назад

Изучаемое глобальное слияние для переменной длины токенизации в трансформерах диффузии

Новый токенизатор с переменной длиной использует изучаемое глобальное слияние для обеспечения сопоставления представлений разной длины в моделях диффузии. Этот подход, независимый от данных, преодолевает позиционные семантики и улучшает соотношение качества и вычислительных затрат при генерации изображений ImageNet 256×25-6 по сравнению с предыдущими методами.

arxiv arXiv cs.AI · 6 д назад

Оптимизация на основе эволюционных методов в пространстве остатков через модели генеративных потоков

Модель-агностичная система объединяет редактирование на основе потоков с эволюционными алгоритмами для обеспечения редактирования данных в ненаблюдаемых условиях. Она работает в пространстве остатков, используя самопропагацию для локальной оптимизации и перекрестное скрещивание для широкого поиска, что было проверено на данных MorphoMNIST и кристаллов для достижения баланса между соответствием цели, сохранением экземпляров и разнообразием.

arxiv arXiv cs.AI · 6 д назад

Внимание-ориентированный SAC для прогнозирования пористости в аддитивном производстве

Многоуровневый экстрактор признаков на основе внимания, интегрированный с Soft Actor-Critic, улучшает прогнозирование пористости и оптимизацию параметров процесса в лазерной сварке порошков. Метод достиг значения сходимости 322,79 за 14 эпизодов, превосходя DQN, PPO, TD3 и обычный SAC по скорости сходимости и стабильности.

arxiv arXiv cs.AI · 6 д назад

Гибридный диффузионный трансформер для редактирования аудио с использованием инструкций

Гибридная двухэтапная архитектура диффузионного трансформера обеспечивает эффективное и точное редактирование аудио с использованием инструкций. Она использует семантическую синхронизацию от грубого к детальному уровню через совместное внимание на низком разрешении, а затем уточнение редактирования с помощью альтернирующего совместного и перекрестного внимания на высоком разрешении. Метод обеспечивает лучшие результаты на сложных задачах редактирования с улучшенной эффективностью и компактной моделью.

arxiv arXiv cs.AI · 6 д назад

Сенсорно-моторные модели мира для восприятия, синхронизированного с действиями

Новая сенсорно-моторная модель мира (SMWM) обучает компактные, действия-связанные скрытые представления на основе отложенных траекторий. Она использует регуляризацию обратных динамик для предотвращения коллапса представлений и синхронизирует скрытые состояния с управляемыми степенями свободы окружающей среды, обеспечивая стабильное обучение без сложных регуляторов или замороженных компонентов. SMWM достигает конкурентоспособной производительности планирования в задачах 2D и 3D управления.