Training methods
arxiv arXiv cs.LG · 16 ч назад

QeHDC: Вычисление гиперразмерности на основе квантово-усиленного связывания и построения суперклассов

Авторы предлагают QeHDC, новую архитектуру, расширяющую классическое вычисление гиперразмерности за счет использования квантовомеханических свойств для повышения вычислительной эффективности. Этот подход использует метод обучения в один проход, который применяет синусоидальное и квантовое кодирование для проецирования классических данных в амплитудные состояния квантовой системы. Ключевым нововведением является введение операции квантового связывания на основе опорного состояния, реализованной с помощью специфических квантовых схем. Кроме того, архитектура реализует стратегию генерации суперклассов на основе матрицы плотности, использующую разложение по собственным значениям для извлечения ключевых признаков квантового состояния. Эти механизмы обеспечивают более точные и устойчивые представления классов для задач классификации. Экспериментальные оценки на стандартных тестовых наборах данных демонстрируют превосходную производительность по сравнению с традиционными классическими и существующими квантово-усиленными методами. Результаты также подчеркивают устойчивость подхода к шумам и его вычислительную осуществимость, что указывает на практическую пользу для будущих парадигм, вдохновленных квантовыми технологиями.

arxiv arXiv cs.LG · 16 ч назад

GaRA: Графово-осознанная генерация LoRA для улучшения LLM в графовых задачах

Графовые нейронные сети часто демонстрируют ограниченную переносимость из-за их тесной связи с специфичными для набора данных пространствами признаков, тогда как языковые модели обеспечивают гибкую обобщающую способность благодаря единому интерфейсу. Существующие методы адаптации языковых моделей к графовым задачам испытывают трудности с кодированием информации о полном графе, что может приводить к значительной потере информации и субоптимальному пониманию. Чтобы устранить это ограничение, авторы предлагают GaRA — новую модель генерации LoRA, учитывающую структуру графа (Graph-aware), которая реализует парадигму инъекции информации на уровне весов. Этот подход генерирует обновления весов, специфичные для задачи, при условии заданных исходных структур графов, позволяя им напрямую взаимодействовать со скрытыми представлениями. Метод ограничивает норму этих сгенерированных обновлений для внедрения информации о полном графе, избегая при этом смещения оптимизации, присущего стандартной генерации весов. Эмпирические исследования демонстрируют, что GaRA последовательно превосходит базовые методы в различных задачах обучения на графах в режиме zero-shot.

arxiv arXiv cs.LG · 16 ч назад

Выход из ловушки дисперсии: Якоби-свободная динамика для двуровневой оптимизации поиска корней

Авторы выявляют критический недостаток, называемый "ловушкой дисперсии" (Variance Trap), который возникает при попытке свести стохастические задачи поиска корней к задачам минимизации с помощью квадратов невязок. Стандартные алгоритмы двуровневой минимизации требуют оценки гиперградиентов, включающих неявные якобианы, которые действуют как усилители шума в стохастических условиях. Чтобы решить эту проблему, статья формализует класс задач "Двуровневая оптимизация поиска корней" (Root-Finding Bilevel Optimization, RF-BO) как отдельный класс задач, позволяющий обойти эту патологическую ситуацию. Предложено решение без вычисления якобиана на основе стохастического приближения с двумя временными масштабами (Two-Time-Scale Stochastic Approximation, TTSA), которое обновляет параметры непосредственно вдоль ошибки поиска корня. Исследование предоставляет первые неасимптотические гарантии сходимости для TTSA в данной постановке при марковском шуме. Эксперименты показывают увеличение точности top-1 на 2,6% в SimCLR и ускорение сходимости в 17 раз в задаче управления нелинейными ОДУ по сравнению с базовыми методами. Кроме того, предложенная рамка обеспечивает значительно улучшенную стабильность энтропии в обучении с подкреплением и повышение качества на 11,1% в генеративном моделировании.

arxiv arXiv cs.LG · 17 ч назад

RQ-TTSA: Распределенно-осозданная устойчивая биуровневая оптимизация с квантильно-управляемыми обновлениями Хубера

Авторы предлагают RQ-TTSA — фреймворк, учитывающий распределение, предназначенный для устранения нестабильности в биуровневой оптимизации, вызванной стохастическим шумом с тяжелыми хвостами. В отличие от существующих методов снижения дисперсии, опирающихся на краткосрочные проверки величины, этот метод использует буферы исторических градиентов для оценки скользящих квантилей и адаптивного обрезания в стиле Хубера. Такой подход сохраняет локальную геометрию оптимизации и строго ограничивает эффективную дисперсию при допущениях о невыпуклой сильно выпуклой функции и шуме с бесконечной дисперсией. Теоретический анализ выводит скорость сходимости O(T^(-(p-1)/(3p-2))), которая восстанавливает оптимальную зависимость от параметра тяжелых хвостов p. Эмпирические оценки на шести разнообразных задачах, включая бенчмарки компьютерного зрения и офлайн-обучение с подкреплением, демонстрируют стабильное превосходство над современными базовыми методами. RQ-TTSA устраняет всплески расхождения и обеспечивает устойчивую сходимость при пренебрежимо малых вычислительных накладных расходах примерно в 2,7 процента.

arxiv arXiv cs.LG · 17 ч назад

VRA-FedSGD: Снижение дисперсии в федеративном обучении для тяжёлых хвостов шума

Авторы предлагают VRA-FedSGD — алгоритм на основе снижения дисперсии, разработанный для федеративного обучения в средах с градиентным и коммуникационным шумом с тяжёлыми хвостами. Этот подход решает проблемы, характерные для крупномасштабного машинного обучения в беспроводных сетях и развертываниях Интернета вещей (IoT). Метод использует снижение дисперсии на основе импульса в сочетании с нелинейным отображением для смягчения градиентного шума с тяжёлыми хвостами. Он также применяет механизм агрегации со сниженной дисперсией для подавления коммуникационного шума с тяжёлыми хвостами. Для невыпуклых целевых функций VRA-FedSGD достигает скорости сходимости по среднему значению O(K^(-(p-1)/(2p-1))), где p — индекс хвоста. В смысле почти наверное достигается скорость Õ(K^(-(1-1/(p-ε))) для сильно выпуклых целевых функций, где ε — произвольно малая константа. Симуляционные эксперименты на логистической регрессии с реальными данными подтверждают эффективность алгоритма.

media r/LocalLLaMA · 17 ч назад

Gefen: готовая замена AdamW с заявленным снижением потребления памяти в 8 раз

Gefen позиционируется как готовая замена оптимизатора AdamW, предлагающая восьмикратное снижение использования памяти во время обучения. Проект включает репозиторий GitHub по адресу ndvbd/Gefen и соответствующую исследовательскую статью на arXiv под идентификатором 2606.13894. Эта публикация подчеркивает потенциал Gefen в оптимизации эффективности использования ресурсов для рабочих процессов машинного обучения. Предоставленные исходные материалы содержат прямые ссылки на техническую документацию и кодовую базу для дополнительной проверки. В доступном тексте не приводятся дополнительные метрики производительности или сравнительные бенчмарки.

arxiv arXiv cs.LG · 21 ч назад

Fed-CausalDiff: Разделенная синхронизация для распределенной симуляции действий

Fed-CausalDiff представляет федеративную систему каскадного диффузии, которая позволяет проводить симуляцию действий и оценку политик в распределенных средах. Она разделяет эволюцию скрытого состояния на глобальные и локальные компоненты, что позволяет достигать разделенной синхронизации, снижая стоимость передачи данных, при этом сохраняя точность каскадного вывода.

arxiv arXiv cs.LG · 21 ч назад

Устойчивые диффузионные модели через взвешенное удаление шума, основанное на расхождении

Новый метод обучения заменяет потерю MSE в диффузионных моделях на преобразование, основанное на f-расхождении, создавая устойчивый заместитель, который улучшает производительность при загрязнении данных. Метод использует локальные конструкции расхождения под гауссовым обратным ядром DDPM, что приводит к обучению по одномерной функции ошибки удаления шума, при ограниченных влияниях расхождений, подавляющих большие ошибки и повышающих стабильность.

arxiv arXiv cs.LG · 21 ч назад

Введение температуры квантового измерения для стабилизации обучения гибридных квантовых нейронных сетей

Вводится управляемый масштабный параметр, называемый температурой квантового измерения (QMT), для пересчета выходов квантовых измерений в гибридных квантовых нейронных сетях. Этот подход уменьшает сжатие логитов, вызванное измерением, повышая величину градиента и стабильность во время обучения, не изменяя квантовую схему или операторы измерения. Эксперименты показывают улучшение разделения логитов, силы градиента и точности классификации в задачах классификации белков и изображений.

arxiv arXiv cs.LG · 21 ч назад

Стационарные устойчивые игры в среднем поле при несоответствии моделей

Эта статья вводит стационарную структуру игр в среднем поле, которая напрямую включает неопределенность распределения моделей в динамике, связанной с популяцией. В ней устанавливается устойчивое динамическое принцип динамического программирования, доказывается существование стационарного устойчивого равновесия и представлен первый алгоритм с гарантиями сходимости. Решение в среднем поле аппроксимирует равновесия конечной популяции и предоставляет явные неасимптотические границы погрешности при неопределенности моделей.

arxiv arXiv cs.LG · 22 ч назад

Классификация задач без обучения для объединения многозадачных моделей

SiM обеспечивает динамическое распределение в объединении многозадачных моделей без дополнительного обучения или доступа к идентификаторам задач. Он использует аппроксимации на многообразии, основанные на SVD, и проецирует тестовые входы на заранее вычисленные многообразия задач, чтобы направлять входы на соответствующих экспертов, повышая производительность и сокращая разрыв до уровня отдельных экспертов.

arxiv arXiv cs.LG · 22 ч назад

Важность-взвешенная на-политическая дистилляция устраняет смещение позиции

На-политическая дистилляция (OPD) страдает от смещения позиции, при котором поздние токены обеспечивают плохое обучение. Мы вводим Важность-взвешенную на-политическую дистилляцию (IW-OPD), которая присваивает веса на основе распределения, приоритизируя ранние токены. IW-OPD сходится быстрее и достигает до 6,9 точек роста производительности на AIME-2025.

arxiv arXiv cs.LG · 22 ч назад

Масштабируемые байесовские модели для обнаружения вспышек на звездах

Генеративная заменительная архитектура, использующая вариационный автоэнкодер, аппроксимирует гауссовы предпосылки, избегая дорогостоящих операций с ковариационными матрицами. Архитектура VAE+Hidden Markov Model позволяет быстро и масштабно обнаруживать вспышки на звездах в больших астрономических временных рядах, сохраняя структурную точность по сравнению с точными моделями, при значительном сокращении вычислительного времени.

arxiv arXiv cs.AI · 23 ч назад

Select-to-Act: иерархическая RL с адаптивным руководством на языке

HRLLI вводит иерархическую систему обучения с подкреплением, которая динамически адаптирует естественные языковые инструкции во время принятия решений. Она разбивает инструкции на элементы руководства, специфичные для каждой стадии, и использует парадигму select-to-act для обеспечения в реальном времени выбора соответствующих фрагментов инструкций, что повышает эффективность выбора образцов и производительность в сложных средах.

arxiv arXiv cs.AI · 23 ч назад

Трансакционный компромисс между редкостью, стоимостью хранения и точностью в обучении словаря с минимальным активированием

Обучение словаря с минимальным активированием (PADL) устанавливает структурированную генеративную модель с вспомогательными скрытыми переменными, позволяя достигать оценки максимального апостериорного распределения. Эта модель обеспечивает гарантии обобщения и аналитическое описание компромисса между редкостью, стоимостью хранения и точностью восстановления, что позволяет проводить данные-ориентированную оценку гиперпараметров. Полученный алгоритм обеспечивает лучшую производительность восстановления и ускоряет инференс в моделях визуально-языковых.

arxiv arXiv cs.AI · 23 ч назад

HyperAdapter: структурированная адаптация гиперребер для мелкого настройки визуальных трансформеров

HyperAdapter вводит адаптер на основе гиперграфа, который обеспечивает структурированную, групповую адаптацию в визуальных трансформерах, работая в пространстве гиперребер, а не в пространстве токенов. Он использует проработанные присваивания для построения мягкого гиперграфа, агрегирует признаки токенов в представления гиперребер, применяет лёгкую адаптацию и возвращает обновления через структуру гиперграфа, обеспечивая явную структурную индуктивную предпосылку при сохранении эффективности. Эксперименты показывают стабильное улучшение по сравнению с базовыми методами PEFT, особенно на задачах, требующих структурированного мышления.

arxiv arXiv cs.AI · 23 ч назад

Кадр P4IR повышает точность соблюдения кода на основе больших языковых моделей

P4IR, двухэтапная система, использует обучение с учителем и групповую относительную оптимизацию политик для улучшения систем автоматического соблюдения кода на основе больших языковых моделей. Она снижает расстояние редактирования дерева и расстояние Левенштейна на уровне токенов на 23,8% и 38,6% соответственно, превосходя ведущие языковые модели, такие как Claude Opus, GPT-5.2 и GLM-4.7, в условиях нулевого обучения с использованием небольшого количества примеров, и снижает количество ложноположительных результатов на незначительную, но статистически значимую величину.

arxiv arXiv cs.AI · 1 д назад

SciVerseGym: среда для обучения с подкреплением для открытия кристаллов

SciVerseGym представляет среду, совместимую с Gymnasium, которая формирует открытие кристаллов как процесс марковского решения. Оно позволяет агентам выполнять химически значимые изменения на атомных структурах и получать обратную связь от настраиваемых оценщиков, поддерживая разнообразные типы действий и наблюдений с использованием машинных потенциалов или калькуляторов, совместимых с ASE.

arxiv arXiv cs.AI · 1 д назад

Представьте, чтобы обеспечить безопасность в иерархическом обучении с помощью вознаграждения

Метод объединяет обучаемую модель мира с политиками высокого и низкого уровня, чтобы обеспечить безопасное исследование в задачах с длинными горизонтами. Политика высокого уровня направляет исследование к безопасным подцелям, в то время как политика низкого уровня использует воображаемые симуляции, чтобы предотвратить небезопасное поведение, превосходя существующие методы безопасного обучения с помощью вознаграждения по показателю успешности и выполнения ограничений в различных задачах.

arxiv arXiv cs.AI · 1 д назад

Fed-CausalDiff: Распределённая синхронизация для федеративной моделирования действий

Fed-CausalDiff вводит федеративную причинно-диффузионную архитектуру, которая позволяет проводить моделирование действий в распределённых средах. Она разделяет эволюцию скрытого состояния на глобальные и локальные компоненты, что позволяет обеспечить распределённую синхронизацию для снижения затрат на передачу данных, при сохранении точной оценки политики и оценки эффекта на среду (ATE).