Результаты
Сортировка
Сбросить
arxiv arXiv cs.AI · 11 д назад

ActiveSAM: Быстрый и точный анализ семантической сегментации с открытым словарем

ActiveSAM — это рамка без обучения и с нулевым обучением, которая улучшает SAM 3 для семантической сегментации с открытым словарем, определяя активный набор классов, зависящий от изображения. Оно улучшает баланс между скоростью и точностью, превосходя SegEarth-OV3 на +1,4 mIoU в среднем и работает до 5,5 раз быстрее на датасетах с большим словарем, при этом демонстрируя сильную устойчивость при искажении изображений.

arxiv arXiv cs.LG · 11 д назад

Определение поведения агентов через процедуры траекторий

Мы предлагаем метод идентификации агентов по их поведенческим отпечаткам, достигающий точности 85,7% при присвоении неизвестных траекторий правильным агентам. Используя ProcGrep, мы анализируем поведение кодирующих агентов в SWE-Bench, и находим, что модели из схожих периодов выпуска или distilled друг от друга демонстрируют более близкую поведенческую схожесть, с показателем дивергенции Дженсена-Шанна 0,25.

arxiv arXiv cs.LG · 11 д назад

ActiveSAM: Быстрый и точный открытие-словарный сегментация

ActiveSAM — это рамка без обучения, нулевого шаблона, которая улучшает SAM 3 для открытие-словарного семантического сегментирования за счет определения активного класса, зависящего от изображения. Оно улучшает компромисс между скоростью и точностью, превосходя SegEarth-OV3 на +1,4 mIoU в среднем и работает на 5,5 раз быстрее на больших словарях, при этом обладая сильной устойчивостью к искажениям изображений.

arxiv arXiv cs.LG · 11 д назад

ROVE: обучение с помощью вмешательств человека для манипуляции робота-человека

ROVE позволяет моделям визуально-языкового-действующего типа для робота-человека эффективно обучаться манипуляционным поведением с использованием несовершенных вмешательств человека. Оно объединяет систему сбора данных с участием человека с оптимистичной оценкой ценности и перекрестным контролем тела для приоритизации высокочастотных действий и улучшения устойчивости. ROVE превосходит базовые методы на реальных задачах манипуляции с контактом благодаря итерационным циклам развертывания и вмешательства.

arxiv arXiv cs.LG · 11 д назад

ExpRL: Исследовательская RL для среднего обучения LLM

ExpRL вводит новую методику среднего обучения для LLM, используя данные вопрос-ответ, написанные людьми, как основу вознаграждения. Вместо имитации ссылочных решений, она строит специфические для задачи критерии оценки для вознаграждения промежуточных шагов рассуждения, что позволяет лучше инициализировать спарсенные вознаграждения RL и превосходить SFT, спарсенный GRPO и самодистилляцию на задачах математического мышления.

arxiv arXiv cs.LG · 11 д назад

HABC улучшает RL-настройку VLAs с разреженными результатами

Hierarchical Advantage-Weighted Behavior Cloning (HABC) улучшает онлайн-RL-настройку агентов визуально-языковых систем за счёт использования отдельных критических голов для жизнеспособности и эффективности. Оно объединяет их выходы через состояние-адаптивный воротник и применяет веса на переходе, при этом интервенция-ориентированная присвоение кредитов предотвращает утечку контроля. В реальных экспериментах с роботами HABC повышает показатели успеха до 92%, 88% и 38% на трёх бимануальных задачах, превосходя базовые значения SFT на 36%, 44% и 12%.

arxiv arXiv cs.LG · 11 д назад

Геометрическая модель действий для обучения политик роботов

Геометрическая модель действий (GAM) позволяет политикам роботов мыслить о трехмерных физических взаимодействиях, перепрограммируя предобученную геометрическую основную модель. GAM разделяет GFM на наблюдательный кодировщик и предиктор причинно-следственных будущих состояний, затем направляет предсказанные будущие геометрические формы и действия через один и тот же основной слой, обеспечивая точные, устойчивые и эффективные результаты в манипуляции в симуляции и на реальных роботах.

media r/LocalLLaMA · 11 д назад

HalBench проверяет 29 открытых моделей на сикофантизм и халлюцинации

HalBench оценивает 29 открытых моделей языковых моделей на специальном бенчмарке для сикофантизма и халлюцинаций. Qwen 3.6 и Gemma 4 превосходят более крупные модели, при этом Qwen 3.6 достигает 36,6% отклонения — выше, чем у GPT-5.4 и Gemini 3.1 Pro. Размер модели не коррелирует с честными ответами, что указывает на то, что архитектура и обучающие данные важнее, чем количество параметров.

arxiv arXiv cs.AI · 11 д назад

Документация по исследованию ИИ улучшается в течение десятилетия

Анализ 56 800 статей на конференциях по ИИ показывает, что практики документирования улучшились с 2014 по 2024 год. Доля статей, в которых публиковались как код, так и данные, возросла с 11% до 64%, а оценка воспроизводимости увеличилась с 28% до 64%. Эти улучшения предшествуют официальным проверкам воспроизводимости, что указывает на более широкий сдвиг в сторону открытой науки.

arxiv arXiv cs.AI · 11 д назад

Фреймворк агентного LLM для классификации кодов HTS

Предлагается консенсусный агентный фреймворк больших языковых моделей для точной классификации 10-значных кодов Согласованной тарифной системы в морской логистике Канады. На 3300 экспертно обозначенных записях о продуктах модель показывает, что детальная классификация HTS остается сложной для продвинутых LLM, подчеркивая необходимость в работе, основанной на доказательствах, учитывающей неопределенность и включающей человека в процесс.

arxiv arXiv cs.AI · 11 д назад

PACT: Делегирование малого языкового модели для реактивного обучения с подкреплением

PACT объединяет реактивную политику RL с малой языковой моделью на 2 миллиона параметров для генерации и проверки планов действий. План от малой языковой модели выполняется напрямую, если он подтверждается как безопасный, выполнимый и полный, что позволяет обойти политику RL. PACT превосходит базовые методы на трёх всё более сложных средах FrozenLake.

arxiv arXiv cs.AI · 11 д назад

Байесовские проверки выявляют несогласованные временные линии оценки ИИ

Публичные архивы оценки ИИ показывают, что один конечный результат может возникнуть из двух различных предшествующих историй, с оценками времени достижения 95% производительности на уровне 23,03 или 75,13. Модель, учитывающая выбор кандидатов, несущественно неудовлетворяет синтетическому восстановлению и калибровке неопределённости, и отклоняется при фиксированных проверках. Протокол архивирования и разрешения подтверждает временные границы и опровергает необоснованные утверждения о фронтовых достижениях.

arxiv arXiv cs.AI · 11 д назад

TuneJury: Открытый метрический инструмент для выравнивания предпочтений в генерации музыки

TuneJury — это открытая модель парного вознаграждения на уровне экземпляров, которая предсказывает оценки предпочтений музыки на основе текстовых запросов и аудио-фрагментов. Модель обучена на разнообразных данных человеческих предпочтений и демонстрирует сильную обобщаемость, при этом калибровка анкоров позволяет эффективно проводить пост-обучение для систем генерации музыки.

arxiv arXiv cs.AI · 11 д назад

TokenPilot: Эффективное управление контекстом для агентов LLM

TokenPilot снижает затраты на инференс на 61% до 87% как в изолированном, так и в непрерывном режимах, превосходя предыдущие системы по эффективности затрат, при этом сохраняя конкурентную производительность. Используя компакцию, учитывающую ввод, и эвакуацию, учитывающую жизненный цикл, TokenPilot обеспечивает непрерывность кэширования промптов и минимизирует объём токенов, не вводя несоответствий префиксов.

arxiv arXiv cs.AI · 11 д назад

FusionRS: Первый масштабный датасет RGB-инфракрасного дистанционного зондирования

FusionRS представляет первый масштабный датасет RGB-инфракрасно-текстового типа для моделирования визуально-языковых моделей дистанционного зондирования. Он синхронизирует RGB и инфракрасные изображения с инфракрасно-осознанными описаниями, позволяя использовать двумодальные визуально-языковые основные модели. Эксперименты показывают улучшение синхронизации RGB-инфракрасных изображений, поиска и описания, при этом исследования с устранением факторов подтверждают критическую роль модальности-специфического текстового надзора.

arxiv arXiv cs.AI · 11 д назад

Фаза в нейронных представлениях: внутренний тест Оппенгейма-Лима

Классификаторы изображений, такие как PRISM2D, GFNet и ViT-B/16, показывают, что фаза, а не модуль, определяет предсказания в скрытых слоях. ResNet-50 раскрывает скрытый код знака в поздних блоках, что указывает на то, что идентичность фазы/знака существует во всех архитектурах, хотя она выражается по-разному из-за механизмов активации и выдачи.

media Latent Space · 11 д назад

Сатя Наделла о Loopcraft и экосистемах Frontier

Генеральный директор Microsoft Сатя Наделла представляет 'Loopcraft' как новую теорию компании, подчеркивая, что истинная возможность в ИИ заключается не в выборе самого лучшего модели, а в создании учебных циклов, которые умножают человеческие и токенизированные активы. Он утверждает, что приоритет должен быть направлен на создание экосистем frontier, в которых каждая организация может владеть и развивать свою институциональную информацию, обеспечивая широкое распространение ценности между отраслями и странами.

arxiv arXiv cs.LG · 11 д назад

Оптимизация Hyperball для ускорения обучения языковых моделей

Hyperball — это простой обертка оптимизатора, которая устанавливает фиксированные нормы Фробениуса для матриц весов и их обновлений. Она повышает скорость обучения и передачу скорости обучения в больших моделях, обеспечивая ускорение на 20--30% по количеству токенов по сравнению с базовыми вариантами с весовым уменьшением на моделях до 1,2 миллиарда параметров.

arxiv arXiv cs.LG · 11 д назад

Факторизованные нейронные операторы разбивают динамические и устойчивые реакции

Факторизованные нейронные операторы (FaNO) разбивают спектральные представления на эквивариантные динамические и инвариантные устойчивые реакции. Такая факторизованная структура обеспечивает лучшую интерпретируемость, обобщение и стабильные предсказания на разных масштабах, областях и физических режимах.

arxiv arXiv cs.LG · 11 д назад

CEAP снижает дисперсию в открытии циркуитов в LLM

CEAP, новый метод открытия циркуитов, значительно снижает дисперсию повторного выбора по сравнению с EAP-IG. В статье показывается, что дисперсия при переформулировке возникает из-за активации разных циркуитов промптовыми шаблонами, что указывает на то, что LLM трудно направлять при различных входах. Дисперсия по образцам в целом является бенефичной, поскольку плохие оценки неподлинности возникают из-за селективного масштабирования вклада, а не из-за дефектов циркуитов.