Источник · arXiv cs.LG
arxiv arXiv cs.LG · 7 д назад

TAPO: Самодистилляция с микросоответствующими траекториями

TAPO продвигает самодистилляцию за счёт построения явных микросоответствующих траекторий, которые сохраняют ошибочные рассуждения и включают диагностики на естественном языке. Эти траектории, полученные из правильных и неправильных развертываний модели, обеспечивают тонкие исправления ошибок, основанные на собственных рассуждениях модели, что улучшает как первоначальное рассуждение, так и исправление ошибок по сравнению с GRPO.

arxiv arXiv cs.LG · 7 д назад

REVES: Усиленное обучение для масштабирования на этапе тестирования

REVES представляет двухэтапную итерационную структуру, которая улучшает логическое мышление больших языковых моделей за счёт последовательного пересмотра и проверки. Метод достигает +6,5 баллов по сравнению с базовыми RL и +4,0 баллов по сравнению с стандартным многократным обучением на LiveCodeBench, используя базовую модель размером 4B и меньшее количество итераций, чем большие эволюционные системы. Метод улучшает исправление ошибок и обобщается на задачи за пределами распределения, такие как n_queens и mini_sudoku.

arxiv arXiv cs.LG · 7 д назад

Неподготовленная оптимизация вознаграждения для языковых моделей белков

Новый фреймворк позволяет языковым моделям белков генерировать управляемые последовательности белков без обучающих данных или проверки в лаборатории. Он использует вознаграждения, не зависящие от задачи, основанные на неопределённости модели и семантической согласованности, для направления генерации, при этом Soft и бинаризованная оптимизация вознаграждения превосходят базовые методы по охвату и управляемости в различных условиях.

arxiv arXiv cs.LG · 7 д назад

EfficientRollout: Системно-осознанная самоспекулятивная декодировка для RL-роллов

EfficientRollout представляет самоспекулятивную декодирующую систему, которая снижает задержку рулл-оута и задержку в конце до 19,6% и 12,7% соответственно, не ухудшая итогальную качество модели. Она использует квантованный драфтер, полученный из целевой модели, и интегрирует системно-осознанную политику переключения, чтобы избежать режимов высокой вычислительной нагрузки, обеспечивая эффективную спекуляцию во время эволюции политики.

arxiv arXiv cs.LG · 7 д назад

В фокусе: использование GPU Spot для ускорения постобучивания DiT RL

Spotlight позволяет ускорить постобучивание DiT RL за счёт использования пустых GPU Spot, снижая расходы в 1,4–6,4 раза при достижении превосходного качества изображений. Используя устаревшие веса модели при исследовании и динамически переконфигурируя последовательную параллельность, обеспечивается эффективное использование GPU без нарушения обучающих потоков.

arxiv arXiv cs.LG · 7 д назад

ViGOS: Разделение восприятия и рассуждения в многомодальных на-политических самодистилляциях

ViGOS представляет визуально обоснованную на-политическую самодистилляционную рамку для многомодальных больших языковых моделей. Она разделяет восприятие и рассуждение, используя визуальный учитель для визуальных описаний и учитель для конечных выводов, что снижает зависимость от текстовых ссылок. Этот подход улучшает визуально обоснованную производительность на нескольких бенчмарках визуально-языковых моделей.

arxiv arXiv cs.LG · 8 д назад

LegalHalluLens: аудит халлюцинаций в правовых ИИ

LegalHalluLens представляет рамку для аудита халлюцинаций ИИ в правовых контекстах, анализируя профили халлюцинаций при вводе по четырём категориям утверждений. Оно выявляет разрыв в 38-40 баллов между утверждениями о обязательствах/числовых и временных утверждениях, и показывает, что два системы с одинаковыми показателями 52% халлюцинаций могут иметь противоположные направления риска. Рамка использует индекс направления риска и калиброванные дебатные потоки для снижения выявленных халлюцинаций на 45%, предоставляя практические диагностики для надежного внедрения правового ИИ.

arxiv arXiv cs.LG · 8 д назад

NoiseTilt: Noise-Tilted Reverse Kernels для выравнивания вознаграждения в диффузионных моделях

NoiseTilt вводит NTRK, диффузионный образовательный сэмплер, который вводит градиенты вознаграждения через компонент шума без изменения обратного ядра. Используя оператор белого шума, NTRK безопасно смещает шум в сторону высоких вознаграждений, сохраняя качество образцов при обеспечении сильного направления. В задаче эстетического генерирования NTRK достигает превосходной производительности по вознаграждению при 25 NFE, снижая вычислительные затраты на 20× по сравнению с существующими базовыми моделями.

arxiv arXiv cs.LG · 8 д назад

Составная обобщение в рациональных процессах языковых моделей

Модель иерархического скрытого выбора показывает, что подкрепленная настройка и обучение с помощью вознаграждения работают совместно для обеспечения составного обобщения в языковых моделях. Подкрепленная настройка предоставляет сырье модулей, в то время как обучение с помощью вознаграждения идентифицирует и переключает атомные модули из сложных следов для решения новых задач. Обучение на сложных следах приводит к более сильному обобщению, чем обучение отдельных модулей, и был найден эффективный протокол, при котором подкрепленная настройка обеспечивает покрытие модулей, а обучение с помощью вознаграждения стимулирует изучение новых составов.

arxiv arXiv cs.LG · 8 д назад

Нарушение ввода с помощью тройных фигурных скобок в Handlebars, позволяющее использовать разделители ролей

Тройное вставление фигурных скобок в Handlebars не защищает от ввода ролей структур, поскольку экранирование HTML нейтрализует только разделители в виде угловых скобок. Оно оставляет разделители в виде точки и хеш-символов Markdown без изменения, что позволяет атакующим перехватывать поведение модели. По умолчанию экранирование не защищает большинство схем разделителей ролей и не может заменить четкое разделение инструкций и данных.

arxiv arXiv cs.LG · 8 д назад

Обратное обучение Q: Новый алгоритм офф-полицейского обучения

Обратное обучение Q (RQL) — это новый алгоритм офф-полицейского обучения, который обучает политику потока с использованием предварительных данных. Моделируя шаги уточнения потока как действия в расширенном процессе марковской решений и применяя виртуальные офф-полицейские траектории через обратное преобразование, RQL обеспечивает эффективное обучение без обратного распространения во времени. Эксперименты по 50 роботизированным задачам показывают, что RQL достигает наилучшей средней производительности среди современных методов офф-полицейского обучения на основе потока.

arxiv arXiv cs.LG · 8 д назад

SkillMigrator: Переносимые паттерны взаимодействия для эффективности веб-агента

SkillMigrator обучает переносимые веб-навыки, сопоставляя структуры разметки вместо ссылок на элементы. Он хранит каждый навык как переносимый паттерн взаимодействия с структурной схемой, что обеспечивает эффективную передачу навыков между сайтами. По сравнению с методами, достигающими передовых результатов, он снижает среднее количество действий LLM на 8-10% на WebArena и Mind2Web при равных показателях успеха.

arxiv arXiv cs.LG · 8 д назад

EnvRL: Использование динамики среды в агентном RL

EnvRL представляет рамку, которая улучшает агентное обучение с помощью вознаграждения за интеграцию динамики среды через прогнозирование состояния и обратные динамические цели. При обучении с использованием GRPO, EnvRL повышает показатели успеха Qwen-2.5-1.5B-Instruct с 72,8% до 77,4% на ALFWorld и с 56,8% до 67,0% на WebShop.

arxiv arXiv cs.LG · 8 д назад

Модели визуально-языковых систем не всегда нуждаются в изображениях для точности рентгеновских снимков грудной клетки

Каузальный аудит показывает, что многие визуально-языковые модели достигают высокой точности рентгеновских снимков грудной клетки без использования изображений. Текстовые модели достигают одинаковой производительности с мультимодальными моделями и превосходят их в области сопоставления, при этом показатели точности и уверенности появляются только при использовании изображений. Эти результаты указывают на то, что точность в отдельности недостаточна для подтверждения клинического внедрения, и необходимо оценивать сопоставление.

arxiv arXiv cs.LG · 8 д назад

Легкие экспериментальные скрытые воспоминания для непрерывного самоулучшения

Новый метод позволяет крупным языковым моделям учиться на собственных следах рассуждений без внешнего контроля. Сжимая вычисления во время инференса в легкие, модульные скрытые воспоминания, модель достигает результатов, сопоставимых с полным обучением, и превосходит базовые подходы без шаблонов и чистого ICL на задачах математического мышления, при минимальных вычислительных затратах.

arxiv arXiv cs.LG · 8 д назад

Qwen-RobotManip достигает обобщения в роботизированной манипуляции

Qwen-RobotManip, фундаментальная модель на основе визуального-языкового-действия, позволяет проводить масштабную обучение за счет единого синхронизации в представлении, движении и поведении. Модель использует открытые данные для создания корпуса предобучения из 38 100 часов и демонстрирует возникающее обобщение, превосходя предыдущие передовые модели в условиях распределения за пределами распределения и занимает первое место в RoboChallenge с относительным улучшением на 20% на реальных роботах.

arxiv arXiv cs.LG · 9 д назад

Определение поведения агентов через процедуры траекторий

Мы предлагаем метод идентификации агентов по их поведенческим отпечаткам, достигающий точности 85,7% при присвоении неизвестных траекторий правильным агентам. Используя ProcGrep, мы анализируем поведение кодирующих агентов в SWE-Bench, и находим, что модели из схожих периодов выпуска или distilled друг от друга демонстрируют более близкую поведенческую схожесть, с показателем дивергенции Дженсена-Шанна 0,25.

arxiv arXiv cs.LG · 9 д назад

ActiveSAM: Быстрый и точный открытие-словарный сегментация

ActiveSAM — это рамка без обучения, нулевого шаблона, которая улучшает SAM 3 для открытие-словарного семантического сегментирования за счет определения активного класса, зависящего от изображения. Оно улучшает компромисс между скоростью и точностью, превосходя SegEarth-OV3 на +1,4 mIoU в среднем и работает на 5,5 раз быстрее на больших словарях, при этом обладая сильной устойчивостью к искажениям изображений.

arxiv arXiv cs.LG · 9 д назад

ROVE: обучение с помощью вмешательств человека для манипуляции робота-человека

ROVE позволяет моделям визуально-языкового-действующего типа для робота-человека эффективно обучаться манипуляционным поведением с использованием несовершенных вмешательств человека. Оно объединяет систему сбора данных с участием человека с оптимистичной оценкой ценности и перекрестным контролем тела для приоритизации высокочастотных действий и улучшения устойчивости. ROVE превосходит базовые методы на реальных задачах манипуляции с контактом благодаря итерационным циклам развертывания и вмешательства.

arxiv arXiv cs.LG · 9 д назад

ExpRL: Исследовательская RL для среднего обучения LLM

ExpRL вводит новую методику среднего обучения для LLM, используя данные вопрос-ответ, написанные людьми, как основу вознаграждения. Вместо имитации ссылочных решений, она строит специфические для задачи критерии оценки для вознаграждения промежуточных шагов рассуждения, что позволяет лучше инициализировать спарсенные вознаграждения RL и превосходить SFT, спарсенный GRPO и самодистилляцию на задачах математического мышления.