Тема · Reasoning models
arxiv arXiv cs.LG · 10 д назад

Определение поведения агентов через процедуры траекторий

Мы предлагаем метод идентификации агентов по их поведенческим отпечаткам, достигающий точности 85,7% при присвоении неизвестных траекторий правильным агентам. Используя ProcGrep, мы анализируем поведение кодирующих агентов в SWE-Bench, и находим, что модели из схожих периодов выпуска или distilled друг от друга демонстрируют более близкую поведенческую схожесть, с показателем дивергенции Дженсена-Шанна 0,25.

arxiv arXiv cs.LG · 10 д назад

ActiveSAM: Быстрый и точный открытие-словарный сегментация

ActiveSAM — это рамка без обучения, нулевого шаблона, которая улучшает SAM 3 для открытие-словарного семантического сегментирования за счет определения активного класса, зависящего от изображения. Оно улучшает компромисс между скоростью и точностью, превосходя SegEarth-OV3 на +1,4 mIoU в среднем и работает на 5,5 раз быстрее на больших словарях, при этом обладая сильной устойчивостью к искажениям изображений.

arxiv arXiv cs.LG · 10 д назад

ROVE: обучение с помощью вмешательств человека для манипуляции робота-человека

ROVE позволяет моделям визуально-языкового-действующего типа для робота-человека эффективно обучаться манипуляционным поведением с использованием несовершенных вмешательств человека. Оно объединяет систему сбора данных с участием человека с оптимистичной оценкой ценности и перекрестным контролем тела для приоритизации высокочастотных действий и улучшения устойчивости. ROVE превосходит базовые методы на реальных задачах манипуляции с контактом благодаря итерационным циклам развертывания и вмешательства.

arxiv arXiv cs.LG · 10 д назад

ExpRL: Исследовательская RL для среднего обучения LLM

ExpRL вводит новую методику среднего обучения для LLM, используя данные вопрос-ответ, написанные людьми, как основу вознаграждения. Вместо имитации ссылочных решений, она строит специфические для задачи критерии оценки для вознаграждения промежуточных шагов рассуждения, что позволяет лучше инициализировать спарсенные вознаграждения RL и превосходить SFT, спарсенный GRPO и самодистилляцию на задачах математического мышления.

arxiv arXiv cs.LG · 10 д назад

HABC улучшает RL-настройку VLAs с разреженными результатами

Hierarchical Advantage-Weighted Behavior Cloning (HABC) улучшает онлайн-RL-настройку агентов визуально-языковых систем за счёт использования отдельных критических голов для жизнеспособности и эффективности. Оно объединяет их выходы через состояние-адаптивный воротник и применяет веса на переходе, при этом интервенция-ориентированная присвоение кредитов предотвращает утечку контроля. В реальных экспериментах с роботами HABC повышает показатели успеха до 92%, 88% и 38% на трёх бимануальных задачах, превосходя базовые значения SFT на 36%, 44% и 12%.

arxiv arXiv cs.LG · 10 д назад

Геометрическая модель действий для обучения политик роботов

Геометрическая модель действий (GAM) позволяет политикам роботов мыслить о трехмерных физических взаимодействиях, перепрограммируя предобученную геометрическую основную модель. GAM разделяет GFM на наблюдательный кодировщик и предиктор причинно-следственных будущих состояний, затем направляет предсказанные будущие геометрические формы и действия через один и тот же основной слой, обеспечивая точные, устойчивые и эффективные результаты в манипуляции в симуляции и на реальных роботах.

media r/LocalLLaMA · 10 д назад

HalBench проверяет 29 открытых моделей на сикофантизм и халлюцинации

HalBench оценивает 29 открытых моделей языковых моделей на специальном бенчмарке для сикофантизма и халлюцинаций. Qwen 3.6 и Gemma 4 превосходят более крупные модели, при этом Qwen 3.6 достигает 36,6% отклонения — выше, чем у GPT-5.4 и Gemini 3.1 Pro. Размер модели не коррелирует с честными ответами, что указывает на то, что архитектура и обучающие данные важнее, чем количество параметров.

arxiv arXiv cs.LG · 10 д назад

Факторизованные нейронные операторы разбивают динамические и устойчивые реакции

Факторизованные нейронные операторы (FaNO) разбивают спектральные представления на эквивариантные динамические и инвариантные устойчивые реакции. Такая факторизованная структура обеспечивает лучшую интерпретируемость, обобщение и стабильные предсказания на разных масштабах, областях и физических режимах.

arxiv arXiv cs.LG · 10 д назад

CEAP снижает дисперсию в открытии циркуитов в LLM

CEAP, новый метод открытия циркуитов, значительно снижает дисперсию повторного выбора по сравнению с EAP-IG. В статье показывается, что дисперсия при переформулировке возникает из-за активации разных циркуитов промптовыми шаблонами, что указывает на то, что LLM трудно направлять при различных входах. Дисперсия по образцам в целом является бенефичной, поскольку плохие оценки неподлинности возникают из-за селективного масштабирования вклада, а не из-за дефектов циркуитов.

arxiv arXiv cs.LG · 10 д назад

Адаптивный функциональный градиентный спуск с гарантиями сходимости

Мы предлагаем новый алгоритм функционального градиентного спуска, который адаптирует свою представляемость во время оптимизации. Метод достигает сходимости к стационарной точке при гладких потерь и к глобальному минимуму при гладкости и условии Поляка-Лојасевича, несмотря на использование конечномерных приближений. Он превосходит как фиксированные приближения FGD, так и базовые нейронные сети на задачах регрессии, решения уравнений в частных производных и компьютерного зрения.

arxiv arXiv cs.LG · 10 д назад

Единая кausalная классификация источников смещений распределений в RL

Данная статья предлагает единую кausalную классификацию источников смещений распределений в репликационном обучении, связывая обобщение в условиях ID/OOD с нестационарными ситуациями. В работе взаимодействие агента и среды разбивается с помощью рамки POMDP, идентифицируются смещения внутреннего, агент-ориентированного и внешнего, среды-ориентированного характера, с явными, скрытыми и гибридными типами, определенными границей смещения во времени. В работе представлено оценочное средство для измерения влияния смещения через метрики деградации и восстановления производительности, что позволяет проводить систематический анализ устойчивости RL.

arxiv arXiv cs.LG · 10 д назад

Ключевые свойства для эффективного рассуждения код-интерпретатора

Исследование выявляет внешние (ключевые токены) и внутренние (когнитивные поведения) свойства, которые улучшают рассуждение код-интерпретатора в больших языковых моделях. Модели с более сильным рассуждением демонстрируют более высокую частоту использования верификации, отката и обратного вывода, при этом эти свойства повышают производительность во время инференса и обучения, снижают избыточное мышление и повышают эффективность токенов.

arxiv arXiv cs.LG · 10 д назад

CrossMaps: Семантическая картирование с учетом уверенности для навигации ровера

CrossMaps — это реальное время, с учетом уверенности, семантическое картирование, которое использует данные RGB-D для создания карт, доступных для запросов на языке. Оно интегрирует многомасштабные векторные вложения CLIP с архитектурой двойной памяти — краткосрочной и долгосрочной памяти — для агрегации визуальных наблюдений и стимулирования согласованных, уверенных ячеек как постоянных семантических ориентиров. Система позволяет использовать естественные языковые запросы для направления навигации ровера через семантические тепловые карты.

arxiv arXiv cs.LG · 10 д назад

CircuitLasso: масштабируемое обучение схем для интерпретируемости LLM

CircuitLasso обеспечивает масштабируемое обучение схем в больших языковых моделях с использованием разреженной линейной регрессии. Он восстанавливает схемы с структурной точностью, соответствующей самым передовым методам, при значительно меньших вычислительных затратах, и демонстрирует семантическое распространение, понятное для человека, через компоненты модели. Полученные схемы обеспечивают сопоставимую производительность на задаче обобщения на области с уменьшенными затратами.

arxiv arXiv cs.LG · 10 д назад

Метод резидуального обучения с использованием направляющего контроля ошибки для балансировки пяти шаров на реальных роботах

Метод резидуального обучения с использованием направляющего контроля ошибки обеспечивает стабильную балансировку пяти шаров на реальных роботах, достигая стабильности с второго попытки. Система превосходит временные рамки практики человека и зависит одновременно от направляющей обратной связи и информативного предварительного знания, при этом фиксированное обновление Ньютона с постоянной Якобианом оказывается наиболее надежным.

arxiv arXiv cs.LG · 10 д назад

PACT: Делегирование малого языкового модели для реактивного обучения с подкреплением

PACT объединяет реактивную политику обучения с подкреплением с малой языковой моделью на 2 миллиона параметров для генерации и проверки планов действий. План от малой языковой модели выполняется напрямую, если он подтверждается в симуляции, без необходимости возвращаться к политике обучения с подкреплением и переподготовки. PACT превосходит базовые методы на трёх всё более сложных средах FrozenLake.

arxiv arXiv cs.LG · 10 д назад

Фаза в нейронных представлениях: внутренний тест Оппенгейма-Лима

Классификаторы изображений, такие как PRISM2D, GFNet и ViT-B/16, показывают, что фаза, а не модуль, определяет предсказания в скрытых слоях. ResNet-50 выявляет скрытый код знака в поздних блоках, что указывает на существование идентичности фазы/знака во всех архитектурах, хотя она выражается по-разному из-за механизмов активации и выдачи результатов.

arxiv arXiv cs.LG · 10 д назад

Точная оценка постериорного скоора для линейных обратных задач

В статье получена точная постериорная оценка в закрытой форме для линейных гауссовых обратных задач, что позволяет эффективно осуществлять выборку постериоров с помощью дезактивации. Вводится точная постериорная оценка (EPS), цель обучения, которая сохраняет структуру предобучения и обеспечивает превосходную производительность по метрикам точности, восприятию и распределения с меньшим числом оценок дезактиватора по сравнению с градиентными методами.

arxiv arXiv cs.LG · 10 д назад

Гибридная конволюционная VAE для криптовалютных поверхностей волатильности

Конволюционный вариационный автоэнкодер, обученный на 6034 поверхностях опционов Binance для BTC и ETH, достигает ошибки в 0,94-1,56 волатильных пунктов при маскировке от 10% до 50%. Гибридный предиктор снижает ошибку с 7,00 до 0,83 волатильных пунктов при маскировке на 50%, превосходя параметрическую перестройку в структурированных пустотах и обнаруживая аномальные рыночные события без надзора.

arxiv arXiv cs.LG · 10 д назад

Dynestyx: Вероятностное программирование для динамических систем

Dynestyx — это библиотека вероятностного программирования, которая обеспечивает первоклассную поддержку для моделей пространства состояний. Она позволяет пользователям задавать произвольные предпосылки для дискретных или непрерывных динамических систем, проводить инференс на смешанных данных и получать оценки состояний и параметров с принципиальной оценкой неопределённости.