Research paper
arxiv arXiv cs.LG · 17 ч назад

SAFER: Адаптивное ансамблирование, управляемое надёжностью, для устойчивой адаптации во время тестирования

Авторы решают проблему хрупкости адаптации во время тестирования (TTA) в условиях потоков, загрязнённых состязательными воздействиями, предлагая SAFER — фреймворк для устойчивой TTA, не требующий обучения. SAFER действует как обёртка для аугментации, заменяя предсказания по одному представлению данных на агрегированный предиктор, управляемый надёжностью, для стабилизации онлайн-обновлений. Для каждого тестового образца метод генерирует стохастические аугментации и агрегирует их выходные данные с помощью корреляционно-взвешенного пулинга в сочетании с обнаружением выбросов. Также предлагается расширение с адаптивным смешиванием, которое корректирует веса между исходными и аугментированными входными данными на основе сигналов несогласованности признаков, чтобы сохранять качество работы на чистых данных. Исследователи оценили SAFER на наборах данных PACS, VLCS и OfficeHome в условиях атак PGD при различных уровнях интенсивности. Результаты показывают, что SAFER повышает устойчивость методов TTA к состязательным атакам, сохраняя конкурентоспособную точность на чистых данных.

arxiv arXiv cs.LG · 17 ч назад

Экономно активируемое обучение словарю связывает разреженность и хранение с генеративными моделями

В статье представлено экономно активируемое обучение словарю (PADL) — метод, накладывающий глобальную регуляризацию на количество активированных атомов словаря. Показано, что PADL эквивалентен оценке максимального апостериорного вероятности в рамках структурированной генеративной модели с вспомогательными латентными переменными. Эта эквивалентность позволяет вывести гарантии обобщения, которые трудно получить из исходной формулировки. Авторы дают аналитическую характеристику компромисса между разреженностью, стоимостью хранения и точностью реконструкции. Данная структура позволяет оценивать оптимальные гиперпараметры на основе данных без ручной настройки. На основе этой теоретической связи разработан эффективный и интерпретируемый алгоритм PADL. Экспериментальные результаты показывают улучшенную производительность реконструкции при сопоставимых уровнях разреженности на визуальных бенчмарках. Метод также демонстрирует практическую полезность в ускорении вывода для моделей "визия-язык".

arxiv arXiv cs.LG · 18 ч назад

Многосеточное обучение для генерации молекул с использованием графовых нейронных сетей

Авторы предлагают стратегию многосеточного обучения для решения проблем высоких вычислительных затрат и нестабильности, связанных с моделированием биохимических молекулярных систем на полном разрешении. Этот подход использует оптимизацию на низком разрешении для ускорения обучения на более высоких разрешениях за счет передачи параметров между различными дискретизациями. Для графовых представлений молекул метод последовательно передает параметры от грубого графа к все более мелким графам с помощью взвешенной случайной ходьбы при повышении детализации. В задачах генерации 3D-молекул структуры вокселизируются на нескольких разрешениях, что позволяет сначала предварительно обучить условный вариационный автоэнкодер (CVAE) на грубом разрешении. Затем совместимые по форме сверточные параметры передаются из грубой модели для инициализации CVAE с высоким разрешением. Численные эксперименты по генерации 3D-лигандов, обусловленной рецептором, демонстрируют, что данный метод ускоряет сходимость по сравнению с обучением с нуля. Кроме того, исследование показывает, что многосеточное обучение улучшает способность к обобщению в задачах генерации молекул.

arxiv arXiv cs.LG · 18 ч назад

HyperAdapter: Структурированная адаптация гиперребер для параметрически эффективной донастройки трансформеров зрения

Авторы предлагают HyperAdapter, новый метод параметрически эффективной донастройки, который адаптирует трансформеры зрения в пространстве гиперребер, а не в пространстве токенов. Существующие методы на основе адаптеров обычно выполняют независимую адаптацию для каждого токена, что игнорирует структурированные взаимосвязи и может приводить к избыточным обновлениям. HyperAdapter строит мягкий гиперграф над токенами ViT с использованием прототипно-базированных назначений, чтобы обеспечить группово-ориентированную адаптацию. Архитектура агрегирует признаки токенов в латентные представления гиперребер и применяет легковесную бутылочную адаптацию на уровне гиперребер. Затем обновления диффундируются обратно к отдельным токенам через структуру инцидентности гиперграфа, внедряя явную структурную индуктивную предвзятость. Масштабные эксперименты на разнообразных визуальных бенчмарках демонстрируют, что этот подход последовательно превосходит сильные базовые методы PEFT при сопоставимых бюджетах параметров. Результаты подчеркивают значительный прогресс в задачах, требующих структурированного рассуждения, и указывают на то, что выбор пространства адаптации является критическим аспектом для эффективного переноса.

arxiv arXiv cs.LG · 18 ч назад

Смещенно-инвариантный оценитель дисперсии устраняет смение минимизации в оценке локального коэффициента обучения

Теория сингулярного обучения использует локальный коэффициент обучения для количественной оценки геометрии ландшафта потерь нейронных сетей, однако оценители на основе среднего значения энергии опираются на аддитивную базовую линию потерь. В фазах обучения вне равновесия это минимальное значение неизвестно, и его замена зашумленными потерями мини-пакетов вносит систематическое смещение минимизации. Авторы предлагают Смещенно-инвариантный оценитель дисперсии (SIVE) для структурного устранения этой неизвестной базовой линии с помощью оператора дисперсии. Комбинируя SIVE с коррекцией, полученной из закона полной дисперсии, метод отделяет геометрические флуктуации потерь от шума оценки. Контролируемые эксперименты на аналитически разрешимых учебных моделях демонстрируют, что SIVE восстанавливает ожидаемые геометрические сигналы при конечной температуре там, где терпят неудачу оценители с закрепленным средним значением. Примененный к глубоким нейронным сетям, SIVE служит надежным диагностическим инструментом для отслеживания структурных фазовых переходов на протяжении всего процесса обучения.

arxiv arXiv cs.LG · 18 ч назад

Эффективный CNN с трансферным обучением для обнаружения множественных видов рака

Исследование представляет легковесную сверточную нейронную сеть, усиленную методом трансферного обучения, для обнаружения множественных видов рака на основе биомедицинских изображений. Архитектура направлена на снижение вычислительной сложности при сохранении высокой классификационной производительности для развертывания в условиях ограниченных ресурсов. Исследователи оценили модель на трех наборах данных опухолей, включающих МРТ головного мозга и КТ-снимки легких и почек. Система достигла точности тестирования 90,85%, 98,64% и 99,92% для рака головного мозга, легких и почек соответственно с использованием пятикратной стратифицированной перекрестной проверки. Трансферное обучение применялось путем предварительного обучения на одном виде рака и дообучения на других, требуя всего 20 дополнительных эпох для достижения уровня моделей, обученных с нуля. Процесс дообучения обновляет классификационную часть CNN и занимает примерно 0,014 секунды на изображение за эпоху на NVIDIA GeForce GTX 960. Сравнительные оценки демонстрируют, что данная модель превосходит современные архитектуры, такие как Xception, VGG16, VGG19, MobileNetV2 и DenseNet121.

arxiv arXiv cs.LG · 19 ч назад

P4IR: Обучение с подкреплением повышает эффективность систем автоматического контроля соответствия кода

Новая платформа P4IR решает проблему генерации несуществующих правил в системах автоматического контроля соответствия кода, основанных на больших языковых моделях. Этот двухэтапный подход сначала использует контролируемое тонкое дообучение для внедрения предметных знаний в модель. Затем применяется групповая относительная оптимизация политики (Group Relative Policy Optimization) для повышения точности генерируемых высокоуровневых каркасов кода. Метод достиг сокращений до 23,8% по расстоянию редактирования дерева и до 38,6% по посимвольному расстоянию Левенштейна по сравнению с базовыми вариантами контролируемого тонкого дообучения. Сравнительный анализ показывает, что P4IR превосходит ведущие модели, такие как Claude Opus, GPT-5.2 и Qwen-3-Max, в условиях нулевого показа (zero-shot). Кроме того, этап обучения с подкреплением обеспечил статистически значимое сокращение числа ложных срабатываний. Эта комбинация методов открывает путь к более надежным системам автоматического контроля соответствия кода.

arxiv arXiv cs.LG · 19 ч назад

Асимптотическое восстановление подпространства сигнала в моделях с механизмом softmax-внимания

В данном исследовании рассматриваются теоретические принципы, лежащие в основе механизмов softmax-внимания, путем анализа стилизованной модели, в которой вектор запроса обучается с помощью стохастического градиентного восхождения. Авторы используют симметрию модели для вывода популяционной целевой функции и характеризуют предельное обыкновенное дифференциальное уравнение, управляющее динамикой обучения. Применяя инструменты теории стохастического приближения и теории динамических систем, они устанавливают строгую связь между стохастическим алгоритмом обучения и его детерминированным пределом. При подходящих предположениях о высокомерном масштабировании и стандартных условиях выбора шага исследования демонстрируют, что обученный вектор запроса сходится почти наверное к одномерному подпространству сигнала. Это сходство означает, что запрос асимптотически восстанавливает скрытое информативное направление с точностью до внутренней неоднозначности знака. Полученные результаты обеспечивают теоретическую основу для понимания механизма внимания как процедуры извлечения сигнала в высокомерных зашумленных средах.

arxiv arXiv cs.LG · 19 ч назад

QeHDC: Вычисление гиперразмерности на основе квантово-усиленного связывания и построения суперклассов

Авторы предлагают QeHDC, новую архитектуру, расширяющую классическое вычисление гиперразмерности за счет использования квантовомеханических свойств для повышения вычислительной эффективности. Этот подход использует метод обучения в один проход, который применяет синусоидальное и квантовое кодирование для проецирования классических данных в амплитудные состояния квантовой системы. Ключевым нововведением является введение операции квантового связывания на основе опорного состояния, реализованной с помощью специфических квантовых схем. Кроме того, архитектура реализует стратегию генерации суперклассов на основе матрицы плотности, использующую разложение по собственным значениям для извлечения ключевых признаков квантового состояния. Эти механизмы обеспечивают более точные и устойчивые представления классов для задач классификации. Экспериментальные оценки на стандартных тестовых наборах данных демонстрируют превосходную производительность по сравнению с традиционными классическими и существующими квантово-усиленными методами. Результаты также подчеркивают устойчивость подхода к шумам и его вычислительную осуществимость, что указывает на практическую пользу для будущих парадигм, вдохновленных квантовыми технологиями.

arxiv arXiv cs.LG · 19 ч назад

GaRA: Графово-осознанная генерация LoRA для улучшения LLM в графовых задачах

Графовые нейронные сети часто демонстрируют ограниченную переносимость из-за их тесной связи с специфичными для набора данных пространствами признаков, тогда как языковые модели обеспечивают гибкую обобщающую способность благодаря единому интерфейсу. Существующие методы адаптации языковых моделей к графовым задачам испытывают трудности с кодированием информации о полном графе, что может приводить к значительной потере информации и субоптимальному пониманию. Чтобы устранить это ограничение, авторы предлагают GaRA — новую модель генерации LoRA, учитывающую структуру графа (Graph-aware), которая реализует парадигму инъекции информации на уровне весов. Этот подход генерирует обновления весов, специфичные для задачи, при условии заданных исходных структур графов, позволяя им напрямую взаимодействовать со скрытыми представлениями. Метод ограничивает норму этих сгенерированных обновлений для внедрения информации о полном графе, избегая при этом смещения оптимизации, присущего стандартной генерации весов. Эмпирические исследования демонстрируют, что GaRA последовательно превосходит базовые методы в различных задачах обучения на графах в режиме zero-shot.

arxiv arXiv cs.LG · 19 ч назад

Большие языковые модели определяют причинную структуру с помощью логики различия

Статья рассматривает загадку того, как большие языковые модели приобретают причинную структуру, несмотря на ограничения стандартных формализмов, таких как интервенционистский подход Джуды Перла и фреймворк Неймана-Рубина. В ней утверждается, что большие языковые модели используют специфический индуктивный метод, известный как вариационная индукция, который опирается на логику различия. Во время обучения модели обрабатывают огромные объемы текста из различных контекстов, чтобы определить, что является «разностным фактором» (difference-maker) или «нейтральным фактором» (indifference-maker) в последовательностях слов. Анализ исследует, как архитектурные компоненты, а именно токенизированные эмбеддинги и механизмы самовнимания, способствуют этому процессу вариационной индукции. Эта логическая структура фундаментально параллельна экспериментальному методу, используемому в науке. В обоих случаях причинно-следственные связи выводятся путем систематического изменения отдельных обстоятельств для наблюдения за их влиянием на явление.

arxiv arXiv cs.LG · 19 ч назад

Выход из ловушки дисперсии: Якоби-свободная динамика для двуровневой оптимизации поиска корней

Авторы выявляют критический недостаток, называемый "ловушкой дисперсии" (Variance Trap), который возникает при попытке свести стохастические задачи поиска корней к задачам минимизации с помощью квадратов невязок. Стандартные алгоритмы двуровневой минимизации требуют оценки гиперградиентов, включающих неявные якобианы, которые действуют как усилители шума в стохастических условиях. Чтобы решить эту проблему, статья формализует класс задач "Двуровневая оптимизация поиска корней" (Root-Finding Bilevel Optimization, RF-BO) как отдельный класс задач, позволяющий обойти эту патологическую ситуацию. Предложено решение без вычисления якобиана на основе стохастического приближения с двумя временными масштабами (Two-Time-Scale Stochastic Approximation, TTSA), которое обновляет параметры непосредственно вдоль ошибки поиска корня. Исследование предоставляет первые неасимптотические гарантии сходимости для TTSA в данной постановке при марковском шуме. Эксперименты показывают увеличение точности top-1 на 2,6% в SimCLR и ускорение сходимости в 17 раз в задаче управления нелинейными ОДУ по сравнению с базовыми методами. Кроме того, предложенная рамка обеспечивает значительно улучшенную стабильность энтропии в обучении с подкреплением и повышение качества на 11,1% в генеративном моделировании.

arxiv arXiv cs.LG · 19 ч назад

RQ-TTSA: Распределенно-осозданная устойчивая биуровневая оптимизация с квантильно-управляемыми обновлениями Хубера

Авторы предлагают RQ-TTSA — фреймворк, учитывающий распределение, предназначенный для устранения нестабильности в биуровневой оптимизации, вызванной стохастическим шумом с тяжелыми хвостами. В отличие от существующих методов снижения дисперсии, опирающихся на краткосрочные проверки величины, этот метод использует буферы исторических градиентов для оценки скользящих квантилей и адаптивного обрезания в стиле Хубера. Такой подход сохраняет локальную геометрию оптимизации и строго ограничивает эффективную дисперсию при допущениях о невыпуклой сильно выпуклой функции и шуме с бесконечной дисперсией. Теоретический анализ выводит скорость сходимости O(T^(-(p-1)/(3p-2))), которая восстанавливает оптимальную зависимость от параметра тяжелых хвостов p. Эмпирические оценки на шести разнообразных задачах, включая бенчмарки компьютерного зрения и офлайн-обучение с подкреплением, демонстрируют стабильное превосходство над современными базовыми методами. RQ-TTSA устраняет всплески расхождения и обеспечивает устойчивую сходимость при пренебрежимо малых вычислительных накладных расходах примерно в 2,7 процента.

media r/LocalLLaMA · 20 ч назад

Colony: Образовательная симуляция механизмов внимания LLM с использованием аналогий на основе агентов

Colony — это образовательный ресурс, предназначенный для объяснения механизма внимания больших языковых моделей (LLM) посредством простых аналогий с участием агентов. Симуляция помещает этих агентов в среду-поле, вдохновлённую игрой «Жизнь» Конвея. Каждый агент в системе представляет определённую роль внутри механизма блока самовнимания LLM. Такой визуальный подход позволяет пользователям наблюдать за тем, как информация течёт и взаимодействует в процессе внимания. Проект доступен как инструмент с открытым исходным кодом для тех, кто заинтересован в изучении этих концепций без сложной математики. Он служит увлекательным и доступным способом понять внутреннее устройство трансформерных моделей.

arxiv arXiv cs.LG · 23 ч назад

Дифференцируемая атари ВЦС для объяснимой ИИ

Представлена полностью дифференцируемая эмуляция атари 2600 ВЦС, воспроизводящая все 64 игры ALE с точностью до бита в памяти и выводе экрана. Система обеспечивает объяснимую ИИ на основе градиентов, предоставляя сложную, полностью известную истину, с реализацией на Julia и JAX, проверенной в отношении отсылки эмулятора и поддерживающей высокую производительность обучения на GPU.

arxiv arXiv cs.LG · 23 ч назад

AdaR: адаптивный рекуррентный передача сообщений для графовых вычислений на этапе тестирования

AdaR обеспечивает гибкие вычисления на этапе тестирования для графов без изменения параметров, используя адаптивную рекурсию. Оно выявляет зависимость шага как необходимое и достаточное условие сходимости и включает нормализованные данные шага и отношения к целевым представлениям в рекуррентные обновления, направляя их по сигналам надзора на основе градиентов. Эмпирические результаты показывают, что AdaR превосходит сильные базовые модели как в индуктивных, так и в трансдуктивных настройках обучения графов.

arxiv arXiv cs.LG · 23 ч назад

Модели речи-текста латентно транскрибируют речь в промежуточных слоях

Модели речи-текста, встроенные друг в друга, проходят фазу неявной транскрипции, при которой речевые слова превращаются в декодируемые текстовые токены в промежуточных слоях, несмотря на отсутствие обучения по распознаванию речи. До 77% данных показывают, что речевое слово появляется как наиболее вероятный текстовый предсказываемый токен, после чего происходит переход к текстовому предсказанию следующего слова, прежде чем возвращение к речи. Это поведение влияется встроенными процессами обучения и инициализацией текстовых моделей, и коррелирует с производительностью по знанию речи.

arxiv arXiv cs.LG · 23 ч назад

Fed-CausalDiff: Разделенная синхронизация для распределенной симуляции действий

Fed-CausalDiff представляет федеративную систему каскадного диффузии, которая позволяет проводить симуляцию действий и оценку политик в распределенных средах. Она разделяет эволюцию скрытого состояния на глобальные и локальные компоненты, что позволяет достигать разделенной синхронизации, снижая стоимость передачи данных, при этом сохраняя точность каскадного вывода.

arxiv arXiv cs.LG · 23 ч назад

Предварительная обработка на стороне запроса повышает точность edge AI

Структурированный фреймворк запроса повышает точность локальных моделей языковой модели при мониторинге окружающей среды за счет преобразования сырых данных сенсоров в обогащенные текстовые представления. Оценки на датасетах в помещении и на улице показывают, что точность локальных моделей увеличивается с 50,9% до 81,7% в помещении и с 63,7% до 89,3% на улице при использовании обогащенных запросов, при этом задержка остается низкой — около 0,22 секунд в режиме без цепочки мыслей.

arxiv arXiv cs.LG · 1 д назад

Эффект ножниц: расширение разнообразия ухудшает устойчивость переноса

Разнообразие входных данных, распространённая практика в атаках на перенос, повышает успех на стандартных переносчиках, но снижает его на устойчивых. Этот зависимый от режима эффект, называемый эффектом ножниц, обусловлен геометрией градиентов, при этом операции масштабирования ухудшают сопоставимость в устойчивых моделях. Без обучения правило (CG-DI) корректирует разнообразие на основе локальной согласованности градиентов, чтобы сохранить успех атаки на разных типах переносчиков.