Training methods
arxiv arXiv cs.LG · 1 д назад

Fed-CausalDiff: Разделенная синхронизация для распределенной симуляции действий

Fed-CausalDiff представляет федеративную систему каскадного диффузии, которая позволяет проводить симуляцию действий и оценку политик в распределенных средах. Она разделяет эволюцию скрытого состояния на глобальные и локальные компоненты, что позволяет достигать разделенной синхронизации, снижая стоимость передачи данных, при этом сохраняя точность каскадного вывода.

arxiv arXiv cs.LG · 1 д назад

Устойчивые диффузионные модели через взвешенное удаление шума, основанное на расхождении

Новый метод обучения заменяет потерю MSE в диффузионных моделях на преобразование, основанное на f-расхождении, создавая устойчивый заместитель, который улучшает производительность при загрязнении данных. Метод использует локальные конструкции расхождения под гауссовым обратным ядром DDPM, что приводит к обучению по одномерной функции ошибки удаления шума, при ограниченных влияниях расхождений, подавляющих большие ошибки и повышающих стабильность.

arxiv arXiv cs.LG · 1 д назад

Введение температуры квантового измерения для стабилизации обучения гибридных квантовых нейронных сетей

Вводится управляемый масштабный параметр, называемый температурой квантового измерения (QMT), для пересчета выходов квантовых измерений в гибридных квантовых нейронных сетях. Этот подход уменьшает сжатие логитов, вызванное измерением, повышая величину градиента и стабильность во время обучения, не изменяя квантовую схему или операторы измерения. Эксперименты показывают улучшение разделения логитов, силы градиента и точности классификации в задачах классификации белков и изображений.

arxiv arXiv cs.LG · 1 д назад

Стационарные устойчивые игры в среднем поле при несоответствии моделей

Эта статья вводит стационарную структуру игр в среднем поле, которая напрямую включает неопределенность распределения моделей в динамике, связанной с популяцией. В ней устанавливается устойчивое динамическое принцип динамического программирования, доказывается существование стационарного устойчивого равновесия и представлен первый алгоритм с гарантиями сходимости. Решение в среднем поле аппроксимирует равновесия конечной популяции и предоставляет явные неасимптотические границы погрешности при неопределенности моделей.

arxiv arXiv cs.LG · 1 д назад

Классификация задач без обучения для объединения многозадачных моделей

SiM обеспечивает динамическое распределение в объединении многозадачных моделей без дополнительного обучения или доступа к идентификаторам задач. Он использует аппроксимации на многообразии, основанные на SVD, и проецирует тестовые входы на заранее вычисленные многообразия задач, чтобы направлять входы на соответствующих экспертов, повышая производительность и сокращая разрыв до уровня отдельных экспертов.

arxiv arXiv cs.LG · 1 д назад

Важность-взвешенная на-политическая дистилляция устраняет смещение позиции

На-политическая дистилляция (OPD) страдает от смещения позиции, при котором поздние токены обеспечивают плохое обучение. Мы вводим Важность-взвешенную на-политическую дистилляцию (IW-OPD), которая присваивает веса на основе распределения, приоритизируя ранние токены. IW-OPD сходится быстрее и достигает до 6,9 точек роста производительности на AIME-2025.

arxiv arXiv cs.LG · 1 д назад

Масштабируемые байесовские модели для обнаружения вспышек на звездах

Генеративная заменительная архитектура, использующая вариационный автоэнкодер, аппроксимирует гауссовы предпосылки, избегая дорогостоящих операций с ковариационными матрицами. Архитектура VAE+Hidden Markov Model позволяет быстро и масштабно обнаруживать вспышки на звездах в больших астрономических временных рядах, сохраняя структурную точность по сравнению с точными моделями, при значительном сокращении вычислительного времени.

arxiv arXiv cs.AI · 1 д назад

Select-to-Act: иерархическая RL с адаптивным руководством на языке

HRLLI вводит иерархическую систему обучения с подкреплением, которая динамически адаптирует естественные языковые инструкции во время принятия решений. Она разбивает инструкции на элементы руководства, специфичные для каждой стадии, и использует парадигму select-to-act для обеспечения в реальном времени выбора соответствующих фрагментов инструкций, что повышает эффективность выбора образцов и производительность в сложных средах.

arxiv arXiv cs.AI · 1 д назад

Трансакционный компромисс между редкостью, стоимостью хранения и точностью в обучении словаря с минимальным активированием

Обучение словаря с минимальным активированием (PADL) устанавливает структурированную генеративную модель с вспомогательными скрытыми переменными, позволяя достигать оценки максимального апостериорного распределения. Эта модель обеспечивает гарантии обобщения и аналитическое описание компромисса между редкостью, стоимостью хранения и точностью восстановления, что позволяет проводить данные-ориентированную оценку гиперпараметров. Полученный алгоритм обеспечивает лучшую производительность восстановления и ускоряет инференс в моделях визуально-языковых.

arxiv arXiv cs.AI · 1 д назад

HyperAdapter: структурированная адаптация гиперребер для мелкого настройки визуальных трансформеров

HyperAdapter вводит адаптер на основе гиперграфа, который обеспечивает структурированную, групповую адаптацию в визуальных трансформерах, работая в пространстве гиперребер, а не в пространстве токенов. Он использует проработанные присваивания для построения мягкого гиперграфа, агрегирует признаки токенов в представления гиперребер, применяет лёгкую адаптацию и возвращает обновления через структуру гиперграфа, обеспечивая явную структурную индуктивную предпосылку при сохранении эффективности. Эксперименты показывают стабильное улучшение по сравнению с базовыми методами PEFT, особенно на задачах, требующих структурированного мышления.

arxiv arXiv cs.AI · 1 д назад

Кадр P4IR повышает точность соблюдения кода на основе больших языковых моделей

P4IR, двухэтапная система, использует обучение с учителем и групповую относительную оптимизацию политик для улучшения систем автоматического соблюдения кода на основе больших языковых моделей. Она снижает расстояние редактирования дерева и расстояние Левенштейна на уровне токенов на 23,8% и 38,6% соответственно, превосходя ведущие языковые модели, такие как Claude Opus, GPT-5.2 и GLM-4.7, в условиях нулевого обучения с использованием небольшого количества примеров, и снижает количество ложноположительных результатов на незначительную, но статистически значимую величину.

arxiv arXiv cs.AI · 1 д назад

SciVerseGym: среда для обучения с подкреплением для открытия кристаллов

SciVerseGym представляет среду, совместимую с Gymnasium, которая формирует открытие кристаллов как процесс марковского решения. Оно позволяет агентам выполнять химически значимые изменения на атомных структурах и получать обратную связь от настраиваемых оценщиков, поддерживая разнообразные типы действий и наблюдений с использованием машинных потенциалов или калькуляторов, совместимых с ASE.

arxiv arXiv cs.AI · 1 д назад

Представьте, чтобы обеспечить безопасность в иерархическом обучении с помощью вознаграждения

Метод объединяет обучаемую модель мира с политиками высокого и низкого уровня, чтобы обеспечить безопасное исследование в задачах с длинными горизонтами. Политика высокого уровня направляет исследование к безопасным подцелям, в то время как политика низкого уровня использует воображаемые симуляции, чтобы предотвратить небезопасное поведение, превосходя существующие методы безопасного обучения с помощью вознаграждения по показателю успешности и выполнения ограничений в различных задачах.

arxiv arXiv cs.AI · 1 д назад

Fed-CausalDiff: Распределённая синхронизация для федеративной моделирования действий

Fed-CausalDiff вводит федеративную причинно-диффузионную архитектуру, которая позволяет проводить моделирование действий в распределённых средах. Она разделяет эволюцию скрытого состояния на глобальные и локальные компоненты, что позволяет обеспечить распределённую синхронизацию для снижения затрат на передачу данных, при сохранении точной оценки политики и оценки эффекта на среду (ATE).

arxiv arXiv cs.AI · 1 д назад

Весовое настройка на-поли-дистилляции решает смещение позиции

На-поли-дистилляция (OPD) страдает от смещения позиции, при котором поздние токены обеспечивают плохую поддержку. Весовая настройка OPD (IW-OPD) присваивает динамические веса на основе расхождения распределений, приоритизируя ранние токены и подавляя поздние. IW-OPD сходится быстрее и достигает до 6,9 точек роста производительности на AIME-2025 по сравнению с стандартной OPD.

arxiv arXiv cs.LG · 1 д назад

Награда-безопасное предобучение для обучения с вознаграждением через максимизацию покрытия состояний

ROVER обеспечивает награду-безопасное предобучение за счет максимизации покрытия состояний в пространстве состояний, используя обученную модель мира для оценки покрытия без оценки плотности или энтропии. Оно вводит виртуальный статус-связи для балансировки исследования известных и неизвестных областей, достигая более равномерного покрытия и лучшей производительности в задачах навигации в табличных и пиксельных форматах.

arxiv arXiv cs.LG · 1 д назад

Центральная предельная теорема для среднего оптимизатора Adam

В статье доказана центральная предельная теорема для среднего оптимизатора Adam, показывающая сходимость порядка n^{-1/2}. Этот порядок совпадает с классическими алгоритмами стохастической аппроксимации, а ковариация выражается через свойства алгоритма в состоянии притяжения.

arxiv arXiv cs.LG · 1 д назад

Кадр BIPC ускоряет оптимизацию смешанных целых чисел с помощью машинного обучения

Кадр BIPC уменьшает время решения для больших смешанных целочисленных программ за счёт выявления подмножества переменных, которые определяют вычислительную сложность. Используя обучение с учителем, он предсказывает значения и интервалы переменных-дверей, затем решает уменьшенную задачу с этими предсказаниями, достигая значительного ускорения с минимальным потерей качества. Это позволяет получать быстрые и качественные решения при возмущениях параметров в реальных системах, таких как энергетика и цепи поставок.

arxiv arXiv cs.LG · 1 д назад

Глубокое обучение с параллельной временной сложностью O(log N)

Гиерархическое блочное локальное обучение (HBLL) позволяет обучать глубокие нейронные сети за временной сложностью O(log N) в параллельном режиме, устраняя необходимость полного обратного распространения. HBLL разбивает сети на гиерархически связанные блоки и достигает конкурентоспособных результатов на задачах визуального и языкового понимания, с расширениями на рекуррентные архитектуры.

arxiv arXiv cs.LG · 1 д назад

Аналитические градиенты политик для эффективного непрерывного управления

Аналитические градиенты политик (APG) обеспечивают точное вычисление градиентов с помощью обратного распространения через симуляцию при дифференцируемых динамических характеристиках среды. APG превосходит Проxимую политическую оптимизацию (PPO) на четырех задачах непрерывного управления, демонстрируя превосходную эффективность по образцам и обучению, благодаря сегментированной схеме обратного распространения, которая снижает деградацию градиентов на задачах с длинными горизонтами.