Training methods — korshunov.ai

Training methods Страница 1 / 14

ORBIT: Обучение без дообучения для многоатрибутивного поведенческого управления посредством ортогонального вращения подпространства

Авторы представляют ORBIT — метод, не требующий дообучения, для одновременного контроля нескольких поведенческих атрибутов в больших языковых моделях. Существующие техники активационного управления (activation steering) сталкиваются с трудностями при многоатрибутивном контроле из-за дисбаланса норм и направленной отмены при использовании наивного векторного суммирования. ORBIT решает эту проблему, конструируя совместное подпространство из плоскостей управления для каждого атрибута с помощью сингулярного разложения (SVD). Затем в этом подпространстве применяется единственное сохраняющее норму вращение к объединённому целевому направлению. Метод включает адаптивное посимвольное (per-token) гейтирование для выявления необходимых коррекций на каждой позиции и необязательное аддитивное усиление для слабых проекций. Для оценки подхода авторы представляют TraitFactory — бенчмарк, ориентированный на поведенческие тенденции, а не на поверхностный стиль. Эксперименты на моделях Llama-3.2-3B, Qwen-2.5-7B и Llama-3.1-8B демонстрируют, что ORBIT обеспечивает более сильное и сбалансированное управление по сравнению с базовыми методами, сохраняя при этом связность вывода.

arxiv arXiv cs.LG · 17 ч назад

Многосеточное обучение для генерации молекул с использованием графовых нейронных сетей

Авторы предлагают стратегию многосеточного обучения для решения проблем высоких вычислительных затрат и нестабильности, связанных с моделированием биохимических молекулярных систем на полном разрешении. Этот подход использует оптимизацию на низком разрешении для ускорения обучения на более высоких разрешениях за счет передачи параметров между различными дискретизациями. Для графовых представлений молекул метод последовательно передает параметры от грубого графа к все более мелким графам с помощью взвешенной случайной ходьбы при повышении детализации. В задачах генерации 3D-молекул структуры вокселизируются на нескольких разрешениях, что позволяет сначала предварительно обучить условный вариационный автоэнкодер (CVAE) на грубом разрешении. Затем совместимые по форме сверточные параметры передаются из грубой модели для инициализации CVAE с высоким разрешением. Численные эксперименты по генерации 3D-лигандов, обусловленной рецептором, демонстрируют, что данный метод ускоряет сходимость по сравнению с обучением с нуля. Кроме того, исследование показывает, что многосеточное обучение улучшает способность к обобщению в задачах генерации молекул.

arxiv arXiv cs.LG · 18 ч назад

HyperAdapter: Структурированная адаптация гиперребер для параметрически эффективной донастройки трансформеров зрения

Авторы предлагают HyperAdapter, новый метод параметрически эффективной донастройки, который адаптирует трансформеры зрения в пространстве гиперребер, а не в пространстве токенов. Существующие методы на основе адаптеров обычно выполняют независимую адаптацию для каждого токена, что игнорирует структурированные взаимосвязи и может приводить к избыточным обновлениям. HyperAdapter строит мягкий гиперграф над токенами ViT с использованием прототипно-базированных назначений, чтобы обеспечить группово-ориентированную адаптацию. Архитектура агрегирует признаки токенов в латентные представления гиперребер и применяет легковесную бутылочную адаптацию на уровне гиперребер. Затем обновления диффундируются обратно к отдельным токенам через структуру инцидентности гиперграфа, внедряя явную структурную индуктивную предвзятость. Масштабные эксперименты на разнообразных визуальных бенчмарках демонстрируют, что этот подход последовательно превосходит сильные базовые методы PEFT при сопоставимых бюджетах параметров. Результаты подчеркивают значительный прогресс в задачах, требующих структурированного рассуждения, и указывают на то, что выбор пространства адаптации является критическим аспектом для эффективного переноса.

arxiv arXiv cs.LG · 18 ч назад

Смещенно-инвариантный оценитель дисперсии устраняет смение минимизации в оценке локального коэффициента обучения

Теория сингулярного обучения использует локальный коэффициент обучения для количественной оценки геометрии ландшафта потерь нейронных сетей, однако оценители на основе среднего значения энергии опираются на аддитивную базовую линию потерь. В фазах обучения вне равновесия это минимальное значение неизвестно, и его замена зашумленными потерями мини-пакетов вносит систематическое смещение минимизации. Авторы предлагают Смещенно-инвариантный оценитель дисперсии (SIVE) для структурного устранения этой неизвестной базовой линии с помощью оператора дисперсии. Комбинируя SIVE с коррекцией, полученной из закона полной дисперсии, метод отделяет геометрические флуктуации потерь от шума оценки. Контролируемые эксперименты на аналитически разрешимых учебных моделях демонстрируют, что SIVE восстанавливает ожидаемые геометрические сигналы при конечной температуре там, где терпят неудачу оценители с закрепленным средним значением. Примененный к глубоким нейронным сетям, SIVE служит надежным диагностическим инструментом для отслеживания структурных фазовых переходов на протяжении всего процесса обучения.

arxiv arXiv cs.LG · 18 ч назад

P4IR: Обучение с подкреплением повышает эффективность систем автоматического контроля соответствия кода

Новая платформа P4IR решает проблему генерации несуществующих правил в системах автоматического контроля соответствия кода, основанных на больших языковых моделях. Этот двухэтапный подход сначала использует контролируемое тонкое дообучение для внедрения предметных знаний в модель. Затем применяется групповая относительная оптимизация политики (Group Relative Policy Optimization) для повышения точности генерируемых высокоуровневых каркасов кода. Метод достиг сокращений до 23,8% по расстоянию редактирования дерева и до 38,6% по посимвольному расстоянию Левенштейна по сравнению с базовыми вариантами контролируемого тонкого дообучения. Сравнительный анализ показывает, что P4IR превосходит ведущие модели, такие как Claude Opus, GPT-5.2 и Qwen-3-Max, в условиях нулевого показа (zero-shot). Кроме того, этап обучения с подкреплением обеспечил статистически значимое сокращение числа ложных срабатываний. Эта комбинация методов открывает путь к более надежным системам автоматического контроля соответствия кода.

arxiv arXiv cs.LG · 18 ч назад

Асимптотическое восстановление подпространства сигнала в моделях с механизмом softmax-внимания

В данном исследовании рассматриваются теоретические принципы, лежащие в основе механизмов softmax-внимания, путем анализа стилизованной модели, в которой вектор запроса обучается с помощью стохастического градиентного восхождения. Авторы используют симметрию модели для вывода популяционной целевой функции и характеризуют предельное обыкновенное дифференциальное уравнение, управляющее динамикой обучения. Применяя инструменты теории стохастического приближения и теории динамических систем, они устанавливают строгую связь между стохастическим алгоритмом обучения и его детерминированным пределом. При подходящих предположениях о высокомерном масштабировании и стандартных условиях выбора шага исследования демонстрируют, что обученный вектор запроса сходится почти наверное к одномерному подпространству сигнала. Это сходство означает, что запрос асимптотически восстанавливает скрытое информативное направление с точностью до внутренней неоднозначности знака. Полученные результаты обеспечивают теоретическую основу для понимания механизма внимания как процедуры извлечения сигнала в высокомерных зашумленных средах.

arxiv arXiv cs.LG · 18 ч назад

QeHDC: Вычисление гиперразмерности на основе квантово-усиленного связывания и построения суперклассов

Авторы предлагают QeHDC, новую архитектуру, расширяющую классическое вычисление гиперразмерности за счет использования квантовомеханических свойств для повышения вычислительной эффективности. Этот подход использует метод обучения в один проход, который применяет синусоидальное и квантовое кодирование для проецирования классических данных в амплитудные состояния квантовой системы. Ключевым нововведением является введение операции квантового связывания на основе опорного состояния, реализованной с помощью специфических квантовых схем. Кроме того, архитектура реализует стратегию генерации суперклассов на основе матрицы плотности, использующую разложение по собственным значениям для извлечения ключевых признаков квантового состояния. Эти механизмы обеспечивают более точные и устойчивые представления классов для задач классификации. Экспериментальные оценки на стандартных тестовых наборах данных демонстрируют превосходную производительность по сравнению с традиционными классическими и существующими квантово-усиленными методами. Результаты также подчеркивают устойчивость подхода к шумам и его вычислительную осуществимость, что указывает на практическую пользу для будущих парадигм, вдохновленных квантовыми технологиями.

arxiv arXiv cs.LG · 18 ч назад

GaRA: Графово-осознанная генерация LoRA для улучшения LLM в графовых задачах

Графовые нейронные сети часто демонстрируют ограниченную переносимость из-за их тесной связи с специфичными для набора данных пространствами признаков, тогда как языковые модели обеспечивают гибкую обобщающую способность благодаря единому интерфейсу. Существующие методы адаптации языковых моделей к графовым задачам испытывают трудности с кодированием информации о полном графе, что может приводить к значительной потере информации и субоптимальному пониманию. Чтобы устранить это ограничение, авторы предлагают GaRA — новую модель генерации LoRA, учитывающую структуру графа (Graph-aware), которая реализует парадигму инъекции информации на уровне весов. Этот подход генерирует обновления весов, специфичные для задачи, при условии заданных исходных структур графов, позволяя им напрямую взаимодействовать со скрытыми представлениями. Метод ограничивает норму этих сгенерированных обновлений для внедрения информации о полном графе, избегая при этом смещения оптимизации, присущего стандартной генерации весов. Эмпирические исследования демонстрируют, что GaRA последовательно превосходит базовые методы в различных задачах обучения на графах в режиме zero-shot.

arxiv arXiv cs.LG · 18 ч назад

Выход из ловушки дисперсии: Якоби-свободная динамика для двуровневой оптимизации поиска корней

Авторы выявляют критический недостаток, называемый "ловушкой дисперсии" (Variance Trap), который возникает при попытке свести стохастические задачи поиска корней к задачам минимизации с помощью квадратов невязок. Стандартные алгоритмы двуровневой минимизации требуют оценки гиперградиентов, включающих неявные якобианы, которые действуют как усилители шума в стохастических условиях. Чтобы решить эту проблему, статья формализует класс задач "Двуровневая оптимизация поиска корней" (Root-Finding Bilevel Optimization, RF-BO) как отдельный класс задач, позволяющий обойти эту патологическую ситуацию. Предложено решение без вычисления якобиана на основе стохастического приближения с двумя временными масштабами (Two-Time-Scale Stochastic Approximation, TTSA), которое обновляет параметры непосредственно вдоль ошибки поиска корня. Исследование предоставляет первые неасимптотические гарантии сходимости для TTSA в данной постановке при марковском шуме. Эксперименты показывают увеличение точности top-1 на 2,6% в SimCLR и ускорение сходимости в 17 раз в задаче управления нелинейными ОДУ по сравнению с базовыми методами. Кроме того, предложенная рамка обеспечивает значительно улучшенную стабильность энтропии в обучении с подкреплением и повышение качества на 11,1% в генеративном моделировании.

arxiv arXiv cs.LG · 19 ч назад

RQ-TTSA: Распределенно-осозданная устойчивая биуровневая оптимизация с квантильно-управляемыми обновлениями Хубера

Авторы предлагают RQ-TTSA — фреймворк, учитывающий распределение, предназначенный для устранения нестабильности в биуровневой оптимизации, вызванной стохастическим шумом с тяжелыми хвостами. В отличие от существующих методов снижения дисперсии, опирающихся на краткосрочные проверки величины, этот метод использует буферы исторических градиентов для оценки скользящих квантилей и адаптивного обрезания в стиле Хубера. Такой подход сохраняет локальную геометрию оптимизации и строго ограничивает эффективную дисперсию при допущениях о невыпуклой сильно выпуклой функции и шуме с бесконечной дисперсией. Теоретический анализ выводит скорость сходимости O(T^(-(p-1)/(3p-2))), которая восстанавливает оптимальную зависимость от параметра тяжелых хвостов p. Эмпирические оценки на шести разнообразных задачах, включая бенчмарки компьютерного зрения и офлайн-обучение с подкреплением, демонстрируют стабильное превосходство над современными базовыми методами. RQ-TTSA устраняет всплески расхождения и обеспечивает устойчивую сходимость при пренебрежимо малых вычислительных накладных расходах примерно в 2,7 процента.

arxiv arXiv cs.LG · 19 ч назад

VRA-FedSGD: Снижение дисперсии в федеративном обучении для тяжёлых хвостов шума

Авторы предлагают VRA-FedSGD — алгоритм на основе снижения дисперсии, разработанный для федеративного обучения в средах с градиентным и коммуникационным шумом с тяжёлыми хвостами. Этот подход решает проблемы, характерные для крупномасштабного машинного обучения в беспроводных сетях и развертываниях Интернета вещей (IoT). Метод использует снижение дисперсии на основе импульса в сочетании с нелинейным отображением для смягчения градиентного шума с тяжёлыми хвостами. Он также применяет механизм агрегации со сниженной дисперсией для подавления коммуникационного шума с тяжёлыми хвостами. Для невыпуклых целевых функций VRA-FedSGD достигает скорости сходимости по среднему значению O(K^(-(p-1)/(2p-1))), где p — индекс хвоста. В смысле почти наверное достигается скорость Õ(K^(-(1-1/(p-ε))) для сильно выпуклых целевых функций, где ε — произвольно малая константа. Симуляционные эксперименты на логистической регрессии с реальными данными подтверждают эффективность алгоритма.

media r/LocalLLaMA · 19 ч назад

Gefen: готовая замена AdamW с заявленным снижением потребления памяти в 8 раз

Gefen позиционируется как готовая замена оптимизатора AdamW, предлагающая восьмикратное снижение использования памяти во время обучения. Проект включает репозиторий GitHub по адресу ndvbd/Gefen и соответствующую исследовательскую статью на arXiv под идентификатором 2606.13894. Эта публикация подчеркивает потенциал Gefen в оптимизации эффективности использования ресурсов для рабочих процессов машинного обучения. Предоставленные исходные материалы содержат прямые ссылки на техническую документацию и кодовую базу для дополнительной проверки. В доступном тексте не приводятся дополнительные метрики производительности или сравнительные бенчмарки.

arxiv arXiv cs.LG · 23 ч назад

Fed-CausalDiff: Разделенная синхронизация для распределенной симуляции действий

Fed-CausalDiff представляет федеративную систему каскадного диффузии, которая позволяет проводить симуляцию действий и оценку политик в распределенных средах. Она разделяет эволюцию скрытого состояния на глобальные и локальные компоненты, что позволяет достигать разделенной синхронизации, снижая стоимость передачи данных, при этом сохраняя точность каскадного вывода.

arxiv arXiv cs.LG · 23 ч назад

Устойчивые диффузионные модели через взвешенное удаление шума, основанное на расхождении

Новый метод обучения заменяет потерю MSE в диффузионных моделях на преобразование, основанное на f-расхождении, создавая устойчивый заместитель, который улучшает производительность при загрязнении данных. Метод использует локальные конструкции расхождения под гауссовым обратным ядром DDPM, что приводит к обучению по одномерной функции ошибки удаления шума, при ограниченных влияниях расхождений, подавляющих большие ошибки и повышающих стабильность.

arxiv arXiv cs.LG · 23 ч назад

Введение температуры квантового измерения для стабилизации обучения гибридных квантовых нейронных сетей

Вводится управляемый масштабный параметр, называемый температурой квантового измерения (QMT), для пересчета выходов квантовых измерений в гибридных квантовых нейронных сетях. Этот подход уменьшает сжатие логитов, вызванное измерением, повышая величину градиента и стабильность во время обучения, не изменяя квантовую схему или операторы измерения. Эксперименты показывают улучшение разделения логитов, силы градиента и точности классификации в задачах классификации белков и изображений.

arxiv arXiv cs.LG · 23 ч назад

Стационарные устойчивые игры в среднем поле при несоответствии моделей

Эта статья вводит стационарную структуру игр в среднем поле, которая напрямую включает неопределенность распределения моделей в динамике, связанной с популяцией. В ней устанавливается устойчивое динамическое принцип динамического программирования, доказывается существование стационарного устойчивого равновесия и представлен первый алгоритм с гарантиями сходимости. Решение в среднем поле аппроксимирует равновесия конечной популяции и предоставляет явные неасимптотические границы погрешности при неопределенности моделей.

arxiv arXiv cs.LG · 1 д назад

Классификация задач без обучения для объединения многозадачных моделей

SiM обеспечивает динамическое распределение в объединении многозадачных моделей без дополнительного обучения или доступа к идентификаторам задач. Он использует аппроксимации на многообразии, основанные на SVD, и проецирует тестовые входы на заранее вычисленные многообразия задач, чтобы направлять входы на соответствующих экспертов, повышая производительность и сокращая разрыв до уровня отдельных экспертов.

arxiv arXiv cs.LG · 1 д назад

Важность-взвешенная на-политическая дистилляция устраняет смещение позиции

На-политическая дистилляция (OPD) страдает от смещения позиции, при котором поздние токены обеспечивают плохое обучение. Мы вводим Важность-взвешенную на-политическую дистилляцию (IW-OPD), которая присваивает веса на основе распределения, приоритизируя ранние токены. IW-OPD сходится быстрее и достигает до 6,9 точек роста производительности на AIME-2025.

arxiv arXiv cs.LG · 1 д назад

Масштабируемые байесовские модели для обнаружения вспышек на звездах

Генеративная заменительная архитектура, использующая вариационный автоэнкодер, аппроксимирует гауссовы предпосылки, избегая дорогостоящих операций с ковариационными матрицами. Архитектура VAE+Hidden Markov Model позволяет быстро и масштабно обнаруживать вспышки на звездах в больших астрономических временных рядах, сохраняя структурную точность по сравнению с точными моделями, при значительном сокращении вычислительного времени.

arxiv arXiv cs.AI · 1 д назад

Select-to-Act: иерархическая RL с адаптивным руководством на языке

HRLLI вводит иерархическую систему обучения с подкреплением, которая динамически адаптирует естественные языковые инструкции во время принятия решений. Она разбивает инструкции на элементы руководства, специфичные для каждой стадии, и использует парадигму select-to-act для обеспечения в реальном времени выбора соответствующих фрагментов инструкций, что повышает эффективность выбора образцов и производительность в сложных средах.