Все статьи
arxiv arXiv cs.LG · 3 д назад

RECALL: Коллекция данных для восстановления опыта в активном непрерывном обучении моделей Vision-Language-Action

В данной статье предлагается активная парадигма непрерывного обучения для моделей Vision-Language-Action (VLA), направленная на устранение неэффективности пассивного обучения с подражанием. Авторы демонстрируют, что сбор данных, направляемый неопределённостью, повышает эффективность дообучения, но приводит к катастрофическому забыванию при исключительно использовании данных восстановления.

arxiv arXiv cs.LG · 3 д назад

DiT-Reward: Генеративные представления для моделирования вознаграждения в задачах text-to-image

В статье представлен DiT-Reward — метод, который превращает предварительно обученный Diffusion Transformer для генерации изображений по тексту в модель вознаграждения за счёт обработки почти чистых латентных представлений изображений и агрегирования текстово-условных представлений по слоям трансформера. Этот подход использует генеративные представления для оценки качества сгенерированных изображений без необходимости отдельных целей обучения.

arxiv arXiv cs.LG · 3 д назад

Muown неявно выполняет затухание углового шага

В статье показано, что направленное обновление Muown эквивалентно римановскому шагу по нормализованным направлениям, при этом величина ненормализованной параметризации модулирует угловой шаг. Это понимание объясняет стабильность размера шага Muown и мотивирует разработку AngularMuown, которая оптимизирует напрямую по нормализованным направлениям с явным, настраиваемым по расписанию угловым множителем.

arxiv arXiv cs.LG · 3 д назад

Обучение процессным вознаграждениям через сопоставление посещений состояний для эффективного RL

Авторы предлагают метод преобразования изначально разреженных вознаграждений за результат в обучении с подкреплением (RL) в плотные процессные вознаграждения путем обучения дискриминатора для различения успешных и неуспешных эпизодов. Этот подход стимулирует политику совпадать с посещениями состояний-действий успешных эпизод, избегая при этом посещений неуспешных, обеспечивая плотную обратную связь по прогрессу без изменения оптимальной политики.

arxiv arXiv cs.LG · 3 д назад

Модели диффузии адаптируются к низкоразмерной структуре при гибком выборе коэффициентов

В данной работе показано, что способность моделей диффузии использовать низкоразмерную структуру для ускорения сэмплирования является устойчивым свойством, не зависящим от конкретных выборов коэффициентов обновления. Авторы доказывают, что широкий класс коэффициентов позволяет генерировать ε-точную выборку за O(k/ε) итераций, независимо от размерности пространства.

arxiv arXiv cs.LG · 3 д назад

Динамическая оценка медленно меняющихся последовательностей

В данной статье представлен подход для последовательного приближения функций в медленно меняющихся последовательностях, использующий повторное применение предыдущих запросов для снижения общих вычислительных затрат. Авторы представляют новые результаты последовательной оценки для степеней матриц, спектральных плотностей, метода Монте-Карло и краевых задач для дифференциальных уравнений в частных производных.

arxiv arXiv cs.LG · 3 д назад

Action-BED: Задачно-ориентированный байесовский экспериментальный дизайн с однократно некорректными целевыми функциями

В статье представлен Action-BED, новая рамка для байесовского экспериментального дизайна, которая формулирует задачу через ожидаемые будущие потери на последующих действиях, а не через уменьшение неопределенности. Этот подход преобразует традиционно двукратно некорректные целевые функции в однократно некорректные, которые можно совместно оптимизировать с помощью стохастических градиентов.

arxiv arXiv cs.LG · 3 д назад

MAS-PromptBench: Когда оптимизация промптов улучшает системы с несколькими агентами на базе LLM?

В данном исследовании систематически изучается влияние оптимизации системных промптов на многоагентные системы (MAS) путем бенчмаркинга двух оптимизаторов в различных конфигурациях задач, рабочих процессов и размеров команд.

arxiv arXiv cs.LG · 3 д назад

О пределах языковых моделей, управляемых промптами, как универсальных обучаемых систем

В данной статье утверждается, что большие языковые модели не являются универсальными решателями задач исключительно посредством промптов из-за фундаментальных ограничений языка как интерфейса коммуникации и требований согласования. Авторы анализируют взаимодействие пользователя с системой как игру дешёвой речи для вывода границ PAC-Bayes, разделяющих ошибку оценки и структурные ограничения.

arxiv arXiv cs.LG · 3 д назад

Сужающиеся языковые модели: улучшение производительности за счёт распределения ёмкости с учётом глубины

В статье представлены Сужающиеся языковые модели (TLMs), архитектурный принцип, который выделяет большую часть параметрической ёмкости ранним слоям и меньшую — поздним в рамках фиксированного бюджета. Этот подход бросает вызов стандартной практике равномерной ширины слоёв, опираясь на данные о том, что поздние слои в основном уточняют остаточный поток (residual stream), а не преобразуют его.

arxiv arXiv cs.LG · 3 д назад

PsyBridge: Гибридная интеллектуальная система для многомерной оценки психического здоровья

В данном исследовании представлена PsyBridge — гибридная интеллектуальная система, разработанная для преодоления ограничений изолированных инструментов скрининга психического здоровья за счет интеграции клинически валидированных оценок с профилированием когнитивных функций и личности. Система использует модульную архитектуру и механизм взвешенной агрегации для генерации интерпретируемых классификаций рисков и рекомендаций по принятию решений.

arxiv arXiv cs.LG · 3 д назад

Открытая проблема: Эффективен ли AdamW при тяжёлохвостом шуме?

В данной статье рассматривается отсутствие строгой теории сходимости для оптимизатора AdamW в режимах с тяжёлохвостым шумом стохастического градиента, что часто встречается при предварительном обучении больших языковых моделей. Ставится вопрос о том, может ли AdamW сходиться в таких условиях или же его аккумулятор второго момента создаёт реальное препятствие.

arxiv arXiv cs.LG · 3 д назад

Семантический просмотр: управляемое разнообразие для генерации изображений

В данной статье представлен метод Semantic Browsing, предназначенный для создания контролируемого разнообразия в моделях преобразования текста в изображение за счёт внедрения структуры в генерируемые образцы, что позволяет преодолеть недостаток осмысленных вариаций в современных системах. Подход обеспечивает разнообразие непосредственно на текстовом уровне, а не полагается на стохастические изменения внутри модели.

arxiv arXiv cs.LG · 6 д назад

CoorDex: Координация телесных и кистевых априори для непрерывной ловкой манипуляции человекоподобного робота

Авторы представляют CoorDex, конвейер обучения, который обеспечивает ловкую локомоно-манипуляцию с высокой степенью свободы на движущихся человекоподобных роботах путем преобразования управления телом и кистью в скоординированное латентное остаточное управление. Этот подход позволяет человекоподобному роботу Unitree G1 выполнять сложные задачи, такие как захват бутылки без остановки и открытие дверцы холодильника, находясь в движении.

arxiv arXiv cs.LG · 6 д назад

AutoDex: Автоматизированная система реального мира для сбора данных о ловком захвате

AutoDex — это автоматизированная система, предназначенная для замыкания цикла сбора данных о ловком захвате в реальном мире путем обработки восприятия, выполнения, маркировки и сброса без вмешательства человека. Она решает проблемы масштабируемости телеоперации и отсутствия физической сертификации в симуляции, генерируя кандидаты на захват и проверяя их на реальном оборудовании.

arxiv arXiv cs.AI · 6 д назад

Адаптивные жёстко-мягкие физически обусловленные нейронные сети для устойчивого решения УЧП с ограничениями на границе

В данном исследовании предлагается унифицированная жёстко-мягкая физически обусловленная нейронная сеть (HSPINN) с адаптивным взвешиванием потерь для решения проблем медленной сходимости и неточного выполнения граничных условий в традиционных PINN. Фреймворк обеспечивает точное выполнение граничных условий Дирихле и периодических граничных условий посредством аналитического подъёма или маскирования, тогда как невязки УЧП и начальные условия рассматриваются как мягкие ограничения, балансируемые с помощью стратегии обратного софтмакса.

arxiv arXiv cs.AI · 6 д назад

Переосмысление молекулярных графовых бэкдоров с учётом химически осознанного допуска

В статье представлен ChemGuard, операционный протокол, формализующий упускаемый из виду этап допуска в конвейерах обучения на молекулах за счёт требования санитизируемых строк и согласованной реконструкции графа. Эта рамка показывает, что многие существующие графовые бэкдоры теряют эффективность, поскольку их яды химически некорректны или несогласованы с представлением.

arxiv arXiv cs.AI · 6 д назад

Измерение и смягчение эффекта пере-выравнивания для больших языковых моделей в многоязычных уголовных судах

В данной статье рассматривается проблема пере-выравнивания больших языковых моделей, используемых в контексте уголовного права Швейцарского федерального верховного суда, где защитные механизмы модели часто вызывают отказы при обработке конфиденциальных деталей дел. Авторы представляют TF-RefusalBench — многоязычный бенчмарк, созданный на основе публичных судебных решений, для измерения этого явления на французском, немецком, итальянском и английском языках.

arxiv arXiv cs.AI · 6 д назад

Трансформеры на основе энергии как предикторы сложности чтения

В данном исследовании представлены трансформеры на основе энергии в качестве новой меры для прогнозирования сложности чтения человеком, устанавливающей формальную связь между моделями трансформеров и литературой по ассоциативной памяти, такой как сети Хопфилда.

arxiv arXiv cs.AI · 6 д назад

Распределенно-осознанный Diffusion-LLM для устойчивого прогнозирования временных рядов на сверхдлинных горизонтах

Авторы предлагают Diffusion-LLM, фреймворк, который интегрирует условную диффузионную модель в конвейер на основе LLM для решения задач прогнозирования мультимодальных временных рядов. Такое совместное проектирование позволяет обучаться будущим распределениям данных, одновременно улучшая семантическое выравнивание в общем латентном пространстве.