Все статьи — korshunov.ai

Все статьи Страница 1 / 96

Открытая проблема: Эффективен ли AdamW при тяжелохвостом шуме?

AdamW является стандартным оптимизатором для обучения больших языковых моделей, однако его теоретическая база в значительной степени ограничена режимами с конечной дисперсией. Этот пробел существенен, поскольку эмпирические данные свидетельствуют о том, что шум стохастического градиента при предварительном обучении LLM обычно обладает тяжелохвостыми характеристиками. Недавние исследования показали, что оптимизаторы, основанные на знаке, такие как Lion и Muon, достигают острых скоростей сходимости в условиях тяжелого хвоста, а также что AdaGrad сходится в этой постановке. Однако строгая теория сходимости для AdamW еще не была установлена в рамках этих предположений о тяжелом хвосте. Авторы формулируют открытую проблему относительно того, может ли AdamW сходиться при тех же предположениях о тяжелом хвосте или же его аккумулятор второго момента создает реальное препятствие. Для решения этой задачи они разрабатывают положительный взвешенный метрический бенчмарк и предлагают механизм нижней границы коридора. Этот механизм демонстрирует, как память знаменателя в AdamW может эффективно скрывать большие градиенты, потенциально влияя на его производительность.

arxiv arXiv cs.AI · 7 ч назад

AIR: Адаптивное чередующееся рассуждение с кодом в мультимодальных больших языковых моделях

В данной статье представлена методика AIR, которая наделяет мультимодальные большие языковые модели способностью к адаптивному чередующемуся рассуждению посредством расширенного обучения с подкреплением на задачах сложного численного вычисления, дополненных кодом. Авторы устраняют ограничение существующих исследований, которые в основном сосредоточены на использовании инструментов в задачах зрительного восприятия и опираются на заранее заданные эвристики, не способные обрабатывать численные вычисления. Для решения этой проблемы они предлагают комплексное решение из трех компонентов: двухэтапный конвейер создания стартовых данных, стратегии фильтрации данных для формирования набора данных обучения с подкреплением и стратегию адаптивного вызова инструментов, использующую функцию вознаграждения с групповыми ограничениями. Масштабные эксперименты демонстрируют, что после обучения с подкреплением с использованием данной функции вознаграждения производительность в среднем повышается на 6,1 процентного пункта по оценочным бенчмаркам. В частности, точность для образцов чередующегося рассуждения увеличивается на 9,9 процентного пункта, а общий показатель успешности использования инструментов превышает 95 процентов. Исследователи предоставляют свои данные и код для публичного доступа в указанном репозитории GitHub.

arxiv arXiv cs.AI · 7 ч назад

Семантический просмотр: управляемое разнообразие для генерации изображений

Современные модели преобразования текста в изображение часто страдают от коллапса разнообразия, несмотря на высокую детализацию. Авторы предлагают метод Semantic Browsing для обеспечения контролируемого разнообразия посредством структурированных галерей изображений. Этот подход позволяет пользователям ориентироваться по значимым осям вариативности, а не по случайному шуму. Метод использует разделение процессов семантического принятия решений и генерации пикселей в современных моделях. Разнообразие формируется непосредственно на текстовом уровне с использованием богатых текстовых представлений. В рамках агентного рабочего процесса Vision Language Model обрабатывает полный контекст сцены. Этот рабочий процесс явно обеспечивает структурированную вариативность, согласованную с исходным запросом. Результатом является навигируемое пространство дизайна с интерпретируемыми семантическими решениями.

arxiv arXiv cs.AI · 7 ч назад

CoorDex: Координация априорных знаний о теле и кистях для непрерывной манипуляции с перемещением у человекоподобных роботов

Авторы представляют CoorDex, конвейер обучения, обеспечивающий ловкую манипуляцию с перемещением у человекоподобных роботов с высокой степенью свободы. Данный подход преобразует высокоразмерное управление телом и кистью в скоординированное латентное остаточное управление, преодолевая ограничения традиционных методов «стоп-и-иди». Система обучает учителей отслеживания привилегированных движений на основе симулированных демонстраций и дистиллирует их в латентные априорные знания, обусловленные проприоцепцией. Эти замороженные априорные знания служат пространством действий для последующего остаточного обучения с подкреплением посредством политики, которая комбинирует контекст задачи с отдельными остаточными головами для тела и кисти. CoorDex позволяет человекоподобному роботу Unitree G1, оснащенному 20-свободной кистью WUJI, выполнять сложные задачи в движении, такие как захват бутылки без остановки и открывание дверцы холодильника. Аблиционные исследования демонстрируют, что PPO в пространстве суставов и монолитное латентное предсказание не справляются при аналогичных бюджетах вознаграждения, тогда как предложенный интерфейс латентных априорных знаний обеспечивает обучаемость для манипуляций с частыми контактами.

arxiv arXiv cs.LG · 7 ч назад

Согласование многообразий кодировщика и декодера для идемпотентной генерации

Недавние парадигмы обучения стремятся обеспечить идемпотентность в генеративных моделях, гарантируя, что повторное применение оставляет выборки неизменными на целевом многообразии данных. Однако многие существующие подходы не достигают точных неподвижных точек, что приводит к нестабильности и дрейфу при повторном применении. Авторы выявляют геометрическое несоответствие между многообразиями кодировщика и декодера как основную причину этого сбоя. Для его устранения они предлагают фреймворк обучения, который явно согласовывает геометрию обоих компонентов для изучения согласованных представлений одного и того же базового многообразия данных. Это согласование способствует стабильным проекциям и значительно снижает ошибку идемпотентности по сравнению с предыдущими методами. Эмпирические результаты демонстрируют, что подход последовательно генерирует идентичные выходные данные при повторном применении как для задач генерации изображений, так и для их редактирования. Кроме того, обеспечение такого типа идемпотентности улучшает сохранение идентичности и стабильность информации в генеративных моделях.

arxiv arXiv cs.LG · 8 ч назад

Manifold Restore Mixing улучшает обучение представлений белков

Аугментация данных улучшает обучение представлений белков, но часто нарушает структурную целостность или снижает разнообразие. Авторы выявляют эти дефекты структуры и проблемы деградации производительности в существующих методах. Они предлагают Manifold Restore Mixing (MRM) для восстановления утраченной структурной информации при одновременном введении разнообразных вариаций. MRM смешивает скрытые представления исходных и аугментированных данных, вдохновляясь техникой manifold mixup. Планировщик сложности образца настраивает бета-распределение для предоставления постепенно усложняющихся образцов в процессе обучения. Эксперименты на различных архитектурах (backbones) и задачах downstream демонстрируют эффективность и обобщающую способность метода. Реализация доступна по адресу https://github.com/KingGugu/MRM.

arxiv arXiv cs.LG · 8 ч назад

Энтропийно-управляемое граничное обучение для сегментации ультразвуковых изображений молочной железы

В данном исследовании представлен метод энтропийно-управляемого граничного обучения, направленный на решение проблем утечки границ и ложноположительных активаций при сегментации ультразвуковых изображений молочной железы. Предложенная функция потерь масштабирует штрафы за контуры с помощью пиксельной предсказательной энтропии и карт истинных ответов (ground-truth), концентрируя градиентное внимание на неопределенных границах поражений. Оценка на наборе данных BUSI показала, что метод сохраняет качество сегментации поражений со средним показателем Dice 0,7624, который статистически неотличим от базового уровня. Однако он значительно улучшил специфичность, сократив количество ложноположительных активаций на изображениях без поражений с 19 из 20 до 5 из 20. Дополнительный шаг пространственного масштабирования температуры (post-hoc spatial temperature scaling) далее снизил ожидаемую ошибку калибровки с 0,0201 до 0,0095 без изменения масок сегментации. Эти результаты демонстрируют, что энтропийно-управляемое обучение и пространственная калибровка функционируют как взаимодополняющие уточнения в рамках архитектуры U-Net.

arxiv arXiv cs.LG · 8 ч назад

Диффузионные интегрированные градиенты: управляемая генерация путей для гибкого атрибутирования признаков

Авторы предлагают метод Diffusion Integrated Gradients (DiffIG), новый подход, который переформулирует генерацию путей как задачу условного генеративного моделирования для преодоления ограничений существующих методов атрибуции. Хотя интегрированные градиенты широко используются, их зависимость от фиксированных или вручную сконструированных путей часто приводит к зашумленным или искаженным атрибутам. Для решения этой проблемы DiffIG обучает диффузионную модель для изучения распределения по путям, полученным из процесса Стик-Брейкинг (Stick-Breaking Process). Затем метод использует направленную выборку (guided sampling), чтобы позволить внедрение пользовательских указаний в процедуру сэмплирования во время вывода. Этот подход обеспечивает гибкое и управляемое атрибутирование признаков, рассматривая выбор пути как генеративную задачу, а не статический выбор. Экспериментальные результаты демонстрируют, что DiffIG количественно соответствует или превосходит существующие методы на основе путей с точки зрения качества атрибуции. Кроме того, показано, что сгенерированные объяснения перцептивно согласуются с человеческими ожиданиями. Работа вводит новую генеративную перспективу для объяснимого искусственного интеллекта, поддерживающую динамический контроль над путями объяснений.

arxiv arXiv cs.LG · 8 ч назад

Первый анализ конечного времени для классического Adam в негладкой невыпуклой оптимизации

В данном исследовании представлен первый анализ сходимости за конечное время для классического оптимизатора Adam, конкретно рассматривающий его поведение в условиях негладкой невыпуклой оптимизации. Предыдущие исследования либо игнорировали член коррекции смещения Adam, либо требовали дополнительных модификаций алгоритма, таких как обрезка (clipping), оставляя гарантии оригинального метода неясными. Авторы используют框架 преобразования Online-to-Nonconvex для доказательства того, что случайным образом масштабированный темп обучения обеспечивает скорость сходимости $1/T^{\frac{2}{13}}$. Этот теоретический результат имеет важное значение, поскольку он применим к современному режиму тяжелых хвостов шума, который более точно отражает практические условия обучения. Кроме того, анализ устанавливает сходимость при выборе параметров, где $β_1=β_2$, что согласуется с недавними эмпирическими наблюдениями. Эти результаты дают строгое объяснение эффективности Adam в реальных сценариях, которые ранее адекватно не описывались теориями гладкой оптимизации.

arxiv arXiv cs.LG · 8 ч назад

Куркулярное обучение с подкреплением, учитывающее границы, расширяет способность к рассуждению больших языковых моделей за пределы ограничений базовой модели

Авторы утверждают, что основной подход обучения с подкреплением с проверяемыми наградами (RLVR) часто не способен расширить способность к рассуждению больших языковых моделей, ограничиваясь лишь перераспределением вероятностей среди существующих траекторий. Чтобы устранить это ограничение, они предлагают метод куркулярного обучения с подкреплением, учитывающего границы, направленный на преодоление эмпирической границы способности к рассуждению базовой модели. Метод сначала использует выборку pass@k для определения текущих пределов рассуждения, а затем применяет целенаправленное руководство учителя к примерам, находящимся вблизи этой границы или за ее пределами. Обучение с подкреплением затем используется для закрепления этих новых паттернов рассуждения на базовых моделях Qwen, Llama и DeepSeek. Экспериментальные результаты демонстрируют значительное улучшение как показателей pass@1, так и pass@256, которые служат прокси-метрикой для границы способности к рассуждению. В частности, средний показатель pass@256 улучшился на 9,8 процентных пункта по сравнению с базовыми моделями и на 10,3 процентных пункта по сравнению с базовым RLVR (Vanilla RLVR). Эти выводы указывают на то, что данная стратегия на основе куррикулума предлагает масштабируемый путь для непрерывного улучшения способностей к рассуждению больших языковых моделей.

arxiv arXiv cs.LG · 8 ч назад

Синки внимания и коллапс — универсальные следствия маршрутизации на основе контента

Исследование демонстрирует, что синки внимания, коллапс представлений и стратификация норм не являются уникальными для архитектур трансформеров, а представляют собой неотъемлемые следствия маршрутизации на основе контента при фиксированной метрике сходства. Устанавливается тождество, показывающее, что функции внимания softmax выступают в качестве агрегации с весами Больцмана по евклидовым расстояниям при постоянных нормах ключей, делая их нечувствительными к величине ключа из-за отсутствия специфического нормировочного члена. Эта рамка предсказывает, что любой маршрутизатор, использующий метрику, плохо согласованную с его представлениями, будет компенсировать это путем концентрации маршрутизации и коллапса маршрутизируемых представлений. Авторы проверяют эту гипотезу на разнообразных моделях, включая девять предварительно обученных трансформеров, графовые сети внимания, модели селективного пространственного состояния, рекуррентные миксеры и обучаемые остаточные слои. Экспериментальные результаты подтверждают, что все протестированные архитектуры демонстрируют этот идентичный признак коллапса независимо от их конкретной области или структуры. Кроме того, аблиационные исследования внутри модели выделяют механизм маршрутизации как основную причину, а не случайные динамики обучения. Показано, что начало этого явления зависит от силы позиционного тормоза, сопровождающего контентный счет, что может смещать эффект в пределах его диапазона. Однако лежащий в основе механизм остается и

media r/LocalLLaMA · 8 ч назад

Пользователи сообщают о высокой производительности модели siq1 на Kebab Bench

Пользователь Reddit поделился результатами, показывающими, что его модель, названная siq1, демонстрирует отличные результаты на оценке Kebab Bench. В посте подчеркиваются возможности модели с помощью демонстрации, размещенной в Hugging Face Spaces. В частности, пользователь ссылается на пространство под названием 'hermes-agent-zerogpu', созданное AlexWortega, как доказательство этой производительности. Этот пост был опубликован пользователем Reddit /u/Mysterious_Hearing14 в сообществе r/LocalLLaMA. Оригинальный пост содержит ссылку на интерфейс Hugging Face, где можно протестировать модель. Кроме того, для дополнительной проверки доступна видеодемонстрация по ссылке V.redd.it.

media r/LocalLLaMA · 8 ч назад

Запрос о наличии современных моделей, не предназначенных для завершения диалога

Пользователь на сабреддите LocalLLaMA задался вопросом, все ли современные большие языковые модели настроены исключительно для взаимодействия в формате чата. Запрос был направлен на выявление моделей, поддерживающих простое завершение текста, а не разговорные форматы. Автор поста отметил сложность поиска таких моделей в репозитории Hugging Face. Это подчеркивает воспринимаемый пробел в доступности архитектур, не ориентированных на чат, для пользователей, нуждающихся в возможностях сырого завершения текста. Обсуждение отражает более широкие опасения по поводу смещения индустрии в сторону моделей, настроенных на инструкции и ориентированных на чат.

arxiv arXiv cs.LG · 8 ч назад

Отсутствие обобщения без эталона в квантовом машинном обучении

В данном исследовании рассматривается проблема идентифицируемости в квантовом машинном обучении, когда обучающие данные не имеют предпочтительного базиса или системы отсчета. Авторы формулируют задачу обучения с учителем без внешнего квантового эталона, требуя от классификаторов сохранения унитарных симметрий, не нарушенных обучающими данными. Они доказывают, что если обучающие состояния не порождают полное гильбертово пространство, то все чистые состояния, ортогональные этому подпространству, получают одинаковые предсказания. Это ограничение возникает из-за отсутствия эталонной информации, а не из-за ограничений на различение состояний или вычислительных возможностей. Исследование устанавливает устойчивую версию в условиях слабого нарушения симметрии и показывает, что обучение общим концепциям требует экспоненциально большого числа ориентированных обучающих направлений. Численные иллюстрации визуализируют коллапс предсказаний и его контролируемое смягчение. Результаты показывают, что отображения признаков, базисы измерений и разнообразные обучающие состояния являются необходимыми операционными ресурсами для обобщения.

arxiv arXiv cs.LG · 9 ч назад

Носимый A-режимный ультразвук обеспечивает отслеживание кинематики всей руки на микроконтроллере

Исследователи предлагают надежную систему отслеживания кинематики всей кисти и запястья с использованием носимой платформы WULPUS и зонда A-режимного ультразвука. Система решает задачу регрессии 23 степеней свободы непосредственно на устройстве, преодолевая ограничения предыдущих неносимых систем. В качестве инструмента применяется компактная многовыходная сверточная нейронная сеть с 11 285 параметрами в сочетании со стратегией инкрементального обучения для повышения обобщающей способности. Этот подход снижает среднюю абсолютную ошибку более чем на 17% по сравнению с неинкрементальными методами. Модель развернута на микроконтроллере WULPUS nRF52832, обеспечивая сквозное отслеживание полностью на устройстве. Расход энергии при выводе составляет всего 0,73 мДж при задержке 29,1 мс. Система поддерживает полную работу в пределах 33 мВт, что позволяет осуществлять непрерывную работу до 36 часов. Этот метод также снижает требования к пропускной способности беспроводной связи на 88% по сравнению с передачей необработанных данных.

arxiv arXiv cs.LG · 9 ч назад

Нуль-калиброванный конформный отбор через оценки принадлежности к цели

В статье представлен метод нуль-калиброванного конформного отбора (NCCS), который использует оценки вероятности принадлежности к цели для выявления кандидатов в тесте внутри целевой области при контроле уровня ложных открытий. Авторы утверждают, что эти оценки принадлежности обеспечивают более естественный ранжирование для задач отбора по сравнению с традиционными показателями несогласованности, ориентированными на прогнозирование, особенно для сложных целей. Это различие имеет критическое значение для целей со значениями в виде интервалов, управляемых дисперсией, многомодальных или многоусловных, где традиционные показатели могут не соответствовать мощности отбора. NCCS ранжирует тестовые оценки по подтвержденным примерам калибровки с нулевым результатом (не-цель), чтобы получить валидные для конечной выборки нулевые p-значения при условии нулевой обменности. Эти p-значения могут быть объединены с процедурой Бенjamини-Екутиели при произвольной зависимости или с процедурой Бенjamини-Хохберга при стандартных условиях положительной зависимости. Эксперименты демонстрируют, что оценки принадлежности совпадают с традиционными показателями на монотонных по среднему значениях целях, но существенно улучшают производительность на целях, управляемых дисперсией. В режимах редких целей NCCS жертвует мощностью ради нулевой валидности для конечной выборки, решая проблемы, при которых прямое пороговое значение эмпирического FDP (False Discovery Proportion) может быть излишне оптимистичным.

arxiv arXiv cs.LG · 9 ч назад

RoboMME-Interference: тестирование памяти роботов в условиях отвлекающих факторов

Введение RoboMME-Interference решает потребность в оценке памяти роботов в реалистичных сценариях с длинным контекстом, где системы должны вспоминать информацию из нескольких предыдущих сеансов. Этот новый кросс-сеансный бенчмарк построен на основе существующей платформы RoboMME для измерения производительности, когда роботы сталкиваются с отвлекающими факторами от нерелевантного предыдущего опыта. Для каждого эпизода запроса бенчмарк формирует историю сеанса, состоящую из релевантных демонстраций, за которыми следует контролируемое количество нерелевантных сеансов, предоставляемых в качестве памяти моделям Vision-Language-Action (VLA). Исследователи протестировали выпущенные модификации модели π_0.5 с дополненной памятью без изменений, чтобы оценить их устойчивость в этих условиях. Результаты показывают, что хотя варианты с перцептивной памятью улучшают показатели успеха при отсутствии отвлекающих факторов, их точность стабильно и сильно снижается по мере накопления нерелевантных сеансов. Эти выводы подчеркивают критический недостаток текущих систем в отношении памяти длинного контекста и устойчивости к интерференции. Страница проекта, видео, код и данные для этого бенчмарка доступны по адресу https://robotmemorybench.com.

arxiv arXiv cs.LG · 9 ч назад

Послойная аннигиляция потока для сэмплирования апостериорного распределения в регрессии в пространстве функций и обратных задачах

Авторы представляют Flow Annealing Posterior Sampling (FAPS), новую рамку, объединяющую регрессию стохастических процессов с обратными задачами УЧП в пространстве функций. Опираясь на предварительно обученные априорные распределения для flow-matching в пространстве функций, FAPS обеспечивает апостериорный вывод, направляемый правдоподобием, на основе разреженных и зашумленных наблюдений. Метод поддерживает различные дискретизации точек запроса и избегает необходимости явной оценки плотности априорного распределения во время сэмплирования. Он использует механизм коррекции Ланжевена, который применяет предобусловливатель низкого ранга для использования доминирующих корреляций в пространстве функций между различными дискретизациями. Тестирование на гауссовских и не-гауссовских стохастических процессах показывает, что FAPS генерирует согласованные апостериорные выборки с точной количественной оценкой неопределенности. Подход значительно превосходит существующие базовые методы функциональной регрессии в этих стандартных задачах. Кроме того, он демонстрирует конкурентоспособную или превосходную производительность в зашумленных обратных задачах УЧП по сравнению с диффузионными сэмплерами при одновременном снижении затрат на сэмплирование во время тестирования.

media r/LocalLLaMA · 9 ч назад

Сэмплер и верификатор с возвратом назад кардинально улучшают производительность маленьких моделей в задачах программирования

Новый сэмплер с возвратом назад, объединенный с моделью-верификатором, значительно повышает качество кодогенерации у крошечных моделей объемом 0.5B параметров, потенциально делая их конкурентоспособными по сравнению с моделями класса 2–4B без изменения весов. Этот подход теоретически решает проблему галлюцинаций в больших моделях за счет исправления ошибок во время генерации путем повторного сэмплирования. Однако данный метод приводит к снижению скорости декодирования на 5–30% из-за необходимости выполнения обратных проходов и требует обучения модели-верификатора, сопоставимой по размеру с исходной. Это требование удваивает использование VRAM и увеличивает вычислительные затраты в 1,5–3 раза по сравнению со стандартным инференсом. Несмотря на эти издержки, верификатор обобщается на модели равного или меньшего веса, если он обучен на разнообразных распределениях данных. Обучение верификатора очень эффективно и требует лишь около 0,01% от объема токенов, используемых для полного предварительного обучения.

media r/LocalLLaMA · 9 ч назад

NVIDIA выпустила Nemotron-TwoTower-30B-A3B — языковую модель на основе диффузии

Компания NVIDIA выпустила модель Nemotron-TwoTower-30B-A3B-Base-BF16, построенную на базе Nemotron 3 Nano 30B-A3B. Эта архитектура отличается от стандартных авторегрессионных моделей за счет использования замороженной контекстной башни вместе с башней диффузионного шумоподавления. Система итеративно заполняет блоки токенов параллельно, а не генерирует их строго по одному. По словам NVIDIA, эта настройка маски-диффузии по умолчанию сохраняет 98,7% совокупного качества бенчмарков, характерного для авторегрессионной базовой модели. При сохранении высокого качества модель достигает в 2,42 раза большей пропускной способности генерации во времени выполнения. В релизе подчеркивается новый подход к языковому моделированию, сочетающий техники диффузии с возможностями больших языковых моделей.