Research paper
arxiv arXiv cs.LG · 20 ч назад

P4IR: Обучение с подкреплением повышает эффективность систем автоматического контроля соответствия кода

Новая платформа P4IR решает проблему генерации несуществующих правил в системах автоматического контроля соответствия кода, основанных на больших языковых моделях. Этот двухэтапный подход сначала использует контролируемое тонкое дообучение для внедрения предметных знаний в модель. Затем применяется групповая относительная оптимизация политики (Group Relative Policy Optimization) для повышения точности генерируемых высокоуровневых каркасов кода. Метод достиг сокращений до 23,8% по расстоянию редактирования дерева и до 38,6% по посимвольному расстоянию Левенштейна по сравнению с базовыми вариантами контролируемого тонкого дообучения. Сравнительный анализ показывает, что P4IR превосходит ведущие модели, такие как Claude Opus, GPT-5.2 и Qwen-3-Max, в условиях нулевого показа (zero-shot). Кроме того, этап обучения с подкреплением обеспечил статистически значимое сокращение числа ложных срабатываний. Эта комбинация методов открывает путь к более надежным системам автоматического контроля соответствия кода.

arxiv arXiv cs.LG · 20 ч назад

Асимптотическое восстановление подпространства сигнала в моделях с механизмом softmax-внимания

В данном исследовании рассматриваются теоретические принципы, лежащие в основе механизмов softmax-внимания, путем анализа стилизованной модели, в которой вектор запроса обучается с помощью стохастического градиентного восхождения. Авторы используют симметрию модели для вывода популяционной целевой функции и характеризуют предельное обыкновенное дифференциальное уравнение, управляющее динамикой обучения. Применяя инструменты теории стохастического приближения и теории динамических систем, они устанавливают строгую связь между стохастическим алгоритмом обучения и его детерминированным пределом. При подходящих предположениях о высокомерном масштабировании и стандартных условиях выбора шага исследования демонстрируют, что обученный вектор запроса сходится почти наверное к одномерному подпространству сигнала. Это сходство означает, что запрос асимптотически восстанавливает скрытое информативное направление с точностью до внутренней неоднозначности знака. Полученные результаты обеспечивают теоретическую основу для понимания механизма внимания как процедуры извлечения сигнала в высокомерных зашумленных средах.

arxiv arXiv cs.LG · 20 ч назад

QeHDC: Вычисление гиперразмерности на основе квантово-усиленного связывания и построения суперклассов

Авторы предлагают QeHDC, новую архитектуру, расширяющую классическое вычисление гиперразмерности за счет использования квантовомеханических свойств для повышения вычислительной эффективности. Этот подход использует метод обучения в один проход, который применяет синусоидальное и квантовое кодирование для проецирования классических данных в амплитудные состояния квантовой системы. Ключевым нововведением является введение операции квантового связывания на основе опорного состояния, реализованной с помощью специфических квантовых схем. Кроме того, архитектура реализует стратегию генерации суперклассов на основе матрицы плотности, использующую разложение по собственным значениям для извлечения ключевых признаков квантового состояния. Эти механизмы обеспечивают более точные и устойчивые представления классов для задач классификации. Экспериментальные оценки на стандартных тестовых наборах данных демонстрируют превосходную производительность по сравнению с традиционными классическими и существующими квантово-усиленными методами. Результаты также подчеркивают устойчивость подхода к шумам и его вычислительную осуществимость, что указывает на практическую пользу для будущих парадигм, вдохновленных квантовыми технологиями.

arxiv arXiv cs.LG · 20 ч назад

GaRA: Графово-осознанная генерация LoRA для улучшения LLM в графовых задачах

Графовые нейронные сети часто демонстрируют ограниченную переносимость из-за их тесной связи с специфичными для набора данных пространствами признаков, тогда как языковые модели обеспечивают гибкую обобщающую способность благодаря единому интерфейсу. Существующие методы адаптации языковых моделей к графовым задачам испытывают трудности с кодированием информации о полном графе, что может приводить к значительной потере информации и субоптимальному пониманию. Чтобы устранить это ограничение, авторы предлагают GaRA — новую модель генерации LoRA, учитывающую структуру графа (Graph-aware), которая реализует парадигму инъекции информации на уровне весов. Этот подход генерирует обновления весов, специфичные для задачи, при условии заданных исходных структур графов, позволяя им напрямую взаимодействовать со скрытыми представлениями. Метод ограничивает норму этих сгенерированных обновлений для внедрения информации о полном графе, избегая при этом смещения оптимизации, присущего стандартной генерации весов. Эмпирические исследования демонстрируют, что GaRA последовательно превосходит базовые методы в различных задачах обучения на графах в режиме zero-shot.

arxiv arXiv cs.LG · 20 ч назад

Большие языковые модели определяют причинную структуру с помощью логики различия

Статья рассматривает загадку того, как большие языковые модели приобретают причинную структуру, несмотря на ограничения стандартных формализмов, таких как интервенционистский подход Джуды Перла и фреймворк Неймана-Рубина. В ней утверждается, что большие языковые модели используют специфический индуктивный метод, известный как вариационная индукция, который опирается на логику различия. Во время обучения модели обрабатывают огромные объемы текста из различных контекстов, чтобы определить, что является «разностным фактором» (difference-maker) или «нейтральным фактором» (indifference-maker) в последовательностях слов. Анализ исследует, как архитектурные компоненты, а именно токенизированные эмбеддинги и механизмы самовнимания, способствуют этому процессу вариационной индукции. Эта логическая структура фундаментально параллельна экспериментальному методу, используемому в науке. В обоих случаях причинно-следственные связи выводятся путем систематического изменения отдельных обстоятельств для наблюдения за их влиянием на явление.

arxiv arXiv cs.LG · 20 ч назад

Выход из ловушки дисперсии: Якоби-свободная динамика для двуровневой оптимизации поиска корней

Авторы выявляют критический недостаток, называемый "ловушкой дисперсии" (Variance Trap), который возникает при попытке свести стохастические задачи поиска корней к задачам минимизации с помощью квадратов невязок. Стандартные алгоритмы двуровневой минимизации требуют оценки гиперградиентов, включающих неявные якобианы, которые действуют как усилители шума в стохастических условиях. Чтобы решить эту проблему, статья формализует класс задач "Двуровневая оптимизация поиска корней" (Root-Finding Bilevel Optimization, RF-BO) как отдельный класс задач, позволяющий обойти эту патологическую ситуацию. Предложено решение без вычисления якобиана на основе стохастического приближения с двумя временными масштабами (Two-Time-Scale Stochastic Approximation, TTSA), которое обновляет параметры непосредственно вдоль ошибки поиска корня. Исследование предоставляет первые неасимптотические гарантии сходимости для TTSA в данной постановке при марковском шуме. Эксперименты показывают увеличение точности top-1 на 2,6% в SimCLR и ускорение сходимости в 17 раз в задаче управления нелинейными ОДУ по сравнению с базовыми методами. Кроме того, предложенная рамка обеспечивает значительно улучшенную стабильность энтропии в обучении с подкреплением и повышение качества на 11,1% в генеративном моделировании.

arxiv arXiv cs.LG · 21 ч назад

RQ-TTSA: Распределенно-осозданная устойчивая биуровневая оптимизация с квантильно-управляемыми обновлениями Хубера

Авторы предлагают RQ-TTSA — фреймворк, учитывающий распределение, предназначенный для устранения нестабильности в биуровневой оптимизации, вызванной стохастическим шумом с тяжелыми хвостами. В отличие от существующих методов снижения дисперсии, опирающихся на краткосрочные проверки величины, этот метод использует буферы исторических градиентов для оценки скользящих квантилей и адаптивного обрезания в стиле Хубера. Такой подход сохраняет локальную геометрию оптимизации и строго ограничивает эффективную дисперсию при допущениях о невыпуклой сильно выпуклой функции и шуме с бесконечной дисперсией. Теоретический анализ выводит скорость сходимости O(T^(-(p-1)/(3p-2))), которая восстанавливает оптимальную зависимость от параметра тяжелых хвостов p. Эмпирические оценки на шести разнообразных задачах, включая бенчмарки компьютерного зрения и офлайн-обучение с подкреплением, демонстрируют стабильное превосходство над современными базовыми методами. RQ-TTSA устраняет всплески расхождения и обеспечивает устойчивую сходимость при пренебрежимо малых вычислительных накладных расходах примерно в 2,7 процента.

media r/LocalLLaMA · 21 ч назад

Colony: Образовательная симуляция механизмов внимания LLM с использованием аналогий на основе агентов

Colony — это образовательный ресурс, предназначенный для объяснения механизма внимания больших языковых моделей (LLM) посредством простых аналогий с участием агентов. Симуляция помещает этих агентов в среду-поле, вдохновлённую игрой «Жизнь» Конвея. Каждый агент в системе представляет определённую роль внутри механизма блока самовнимания LLM. Такой визуальный подход позволяет пользователям наблюдать за тем, как информация течёт и взаимодействует в процессе внимания. Проект доступен как инструмент с открытым исходным кодом для тех, кто заинтересован в изучении этих концепций без сложной математики. Он служит увлекательным и доступным способом понять внутреннее устройство трансформерных моделей.

arxiv arXiv cs.LG · 1 д назад

Дифференцируемая атари ВЦС для объяснимой ИИ

Представлена полностью дифференцируемая эмуляция атари 2600 ВЦС, воспроизводящая все 64 игры ALE с точностью до бита в памяти и выводе экрана. Система обеспечивает объяснимую ИИ на основе градиентов, предоставляя сложную, полностью известную истину, с реализацией на Julia и JAX, проверенной в отношении отсылки эмулятора и поддерживающей высокую производительность обучения на GPU.

arxiv arXiv cs.LG · 1 д назад

AdaR: адаптивный рекуррентный передача сообщений для графовых вычислений на этапе тестирования

AdaR обеспечивает гибкие вычисления на этапе тестирования для графов без изменения параметров, используя адаптивную рекурсию. Оно выявляет зависимость шага как необходимое и достаточное условие сходимости и включает нормализованные данные шага и отношения к целевым представлениям в рекуррентные обновления, направляя их по сигналам надзора на основе градиентов. Эмпирические результаты показывают, что AdaR превосходит сильные базовые модели как в индуктивных, так и в трансдуктивных настройках обучения графов.

arxiv arXiv cs.LG · 1 д назад

Модели речи-текста латентно транскрибируют речь в промежуточных слоях

Модели речи-текста, встроенные друг в друга, проходят фазу неявной транскрипции, при которой речевые слова превращаются в декодируемые текстовые токены в промежуточных слоях, несмотря на отсутствие обучения по распознаванию речи. До 77% данных показывают, что речевое слово появляется как наиболее вероятный текстовый предсказываемый токен, после чего происходит переход к текстовому предсказанию следующего слова, прежде чем возвращение к речи. Это поведение влияется встроенными процессами обучения и инициализацией текстовых моделей, и коррелирует с производительностью по знанию речи.

arxiv arXiv cs.LG · 1 д назад

Fed-CausalDiff: Разделенная синхронизация для распределенной симуляции действий

Fed-CausalDiff представляет федеративную систему каскадного диффузии, которая позволяет проводить симуляцию действий и оценку политик в распределенных средах. Она разделяет эволюцию скрытого состояния на глобальные и локальные компоненты, что позволяет достигать разделенной синхронизации, снижая стоимость передачи данных, при этом сохраняя точность каскадного вывода.

arxiv arXiv cs.LG · 1 д назад

Предварительная обработка на стороне запроса повышает точность edge AI

Структурированный фреймворк запроса повышает точность локальных моделей языковой модели при мониторинге окружающей среды за счет преобразования сырых данных сенсоров в обогащенные текстовые представления. Оценки на датасетах в помещении и на улице показывают, что точность локальных моделей увеличивается с 50,9% до 81,7% в помещении и с 63,7% до 89,3% на улице при использовании обогащенных запросов, при этом задержка остается низкой — около 0,22 секунд в режиме без цепочки мыслей.

arxiv arXiv cs.LG · 1 д назад

Эффект ножниц: расширение разнообразия ухудшает устойчивость переноса

Разнообразие входных данных, распространённая практика в атаках на перенос, повышает успех на стандартных переносчиках, но снижает его на устойчивых. Этот зависимый от режима эффект, называемый эффектом ножниц, обусловлен геометрией градиентов, при этом операции масштабирования ухудшают сопоставимость в устойчивых моделях. Без обучения правило (CG-DI) корректирует разнообразие на основе локальной согласованности градиентов, чтобы сохранить успех атаки на разных типах переносчиков.

arxiv arXiv cs.LG · 1 д назад

Кадровый устойчивый оптимизационный фреймворк

Кадровый устойчивый оптимизационный (GRO) вводит глубокую генеративную модель для определения множеств неопределенности, захватывая нелинейные корреляции, асимметрию и мультимодальность. Пятиуровневая оценочная система оценивает генеративные множества неопределенности на основе нейронных сетей по точности восстановления, соответствию распределению, регулярности скрытого пространства, устойчивой значимости и вычислительной применимости, эксперименты подтверждают эффективность GRO в задачах планирования производства и размещения объектов.

arxiv arXiv cs.LG · 1 д назад

Введение температуры квантового измерения для стабилизации обучения гибридных квантовых нейронных сетей

Вводится управляемый масштабный параметр, называемый температурой квантового измерения (QMT), для пересчета выходов квантовых измерений в гибридных квантовых нейронных сетях. Этот подход уменьшает сжатие логитов, вызванное измерением, повышая величину градиента и стабильность во время обучения, не изменяя квантовую схему или операторы измерения. Эксперименты показывают улучшение разделения логитов, силы градиента и точности классификации в задачах классификации белков и изображений.

arxiv arXiv cs.LG · 1 д назад

Глубокая сетевая структура для гомогенизации пьезоэлектрических композитов

Предлагается пьезоэлектрическая глубокая сетевая структура (PDMN) для эффективной гомогенизации двухфазных пьезоэлектрических композитов. Архитектура встраивает электромеханические уравнения гомогенизации, позволяя делать физически обоснованные, полуаналитические прогнозы с вычислительной стоимостью на три порядка ниже, чем при прямом численном моделировании, что подтверждено на композитах PVDF-LiNbO3 и вязко-пьезоэлектрических композитах при нелинейной нагрузке.

arxiv arXiv cs.LG · 1 д назад

Концептуально-ограниченное обучение промптов для адаптации CLIP в условиях малообучающих данных

CCPL представляет легкую архитектуру, которая фиксирует промпты классов к замороженным концептуальным прототипам, улучшая адаптацию CLIP в условиях малообучающих данных. Оно достигает лучшего показателя базовой-новой производительности на DTD и EuroSAT по сравнению с CoOp, с постоянными улучшениями за счёт регуляризации в пространстве текста, хотя результаты варьируются в зависимости от датасета и протокола.

arxiv arXiv cs.LG · 1 д назад

Стационарные устойчивые игры в среднем поле при несоответствии моделей

Эта статья вводит стационарную структуру игр в среднем поле, которая напрямую включает неопределенность распределения моделей в динамике, связанной с популяцией. В ней устанавливается устойчивое динамическое принцип динамического программирования, доказывается существование стационарного устойчивого равновесия и представлен первый алгоритм с гарантиями сходимости. Решение в среднем поле аппроксимирует равновесия конечной популяции и предоставляет явные неасимптотические границы погрешности при неопределенности моделей.

arxiv arXiv cs.LG · 1 д назад

Классификация задач без обучения для объединения многозадачных моделей

SiM обеспечивает динамическое распределение в объединении многозадачных моделей без дополнительного обучения или доступа к идентификаторам задач. Он использует аппроксимации на многообразии, основанные на SVD, и проецирует тестовые входы на заранее вычисленные многообразия задач, чтобы направлять входы на соответствующих экспертов, повышая производительность и сокращая разрыв до уровня отдельных экспертов.