Reasoning models
arxiv arXiv cs.AI · 7 д назад

FlowMaps Модели длительных многомодальных динамик объектов

FlowMaps — это модель скрытого потока, которая предсказывает будущие положения объектов в 3D средах, изучая пространственно-временные паттерны из взаимодействий человека. Оно превосходит самые передовые методы в динамическом навигационном движении объектов более чем на 600 эпизодах как в симулированных, так и в реальных условиях.

arxiv arXiv cs.AI · 7 д назад

Глубокое обучение с подкреплением для улучшения ИИ в играх

В этой статье предлагается рамка применения глубокого обучения с подкреплением в ИИ для игр, направленная на создание более реалистичных и человеческих персонажей. В статье рассматриваются текущие ограничения при внедрении агентов машинного обучения в игры и выявляются ключевые научные задачи, которые могут ускорить внедрение ИИ в видеоигровую индустрию.

arxiv arXiv cs.AI · 7 д назад

QMFOL: Оценка способности больших моделей к логическому мышлению с контролируемой логической сложностью

QMFOL — это автоматизированная система, генерирующая задачи логического мышления на монадическом первом порядке с количественной сложностью. Она создает 2880 экземпляров тестов на 960 конфигурациях, оценивая шесть больших моделей логического мышления и две большие языковые модели, демонстрируя снижение производительности и рост вычислительных затрат при росте логической сложности.

arxiv arXiv cs.AI · 7 д назад

Термодинамическая мера интеллекта

Интеллект определяется как законное усиление редких, но корректных будущих. Фреймворк показывает, что рекурсивная самосимуляция необходима и почти достаточна для высокой термодинамической интеллектуальности, что позволяет создать универсальную и измеримую шкалу для систем от материи до людей и искусственного интеллекта.

arxiv arXiv cs.AI · 7 д назад

ScholarQuest: База для агентного поиска академических работ с использованием классификации

ScholarQuest — это масштабная база для агентного поиска академических статей, построенных на основе 1000 тем из области компьютерных наук и четырех научных целей. В ней включены масштабируемые методы построения ответов и общий ретриев-бэкенд ScholarBase, обеспечивающий воспроизводимую оценку. Результаты показывают, что агентные методы превосходят базовые методы поиска, при этом лучший агент достигает 0,314 Recall@100 и 0,355 Recall@All, что указывает на значительный потенциал для улучшения.

arxiv arXiv cs.AI · 7 д назад

MAMO: Многоагентная система для многокритериальной оптимизации с ограничениями

MAMO вводит подход многоканального обучения с помощью репликации для решения задачи балансировки минимизации затрат и удовлетворения ограничений в динамических средах. Он разделяет выполнение задачи на выбор весов вознаграждения, рассматривая выбор весов как задачу обучения, что позволяет достигать более автономных и устойчивых решений.

arxiv arXiv cs.AI · 7 д назад

SPOT-E: Метод формирования энтропии на этапе тестирования с визуальными фокусами для замороженных моделей ВЛ

SPOT-E представляет метод на этапе тестирования, использующий визуальные фокусы для усиления фиксации доказательств в замороженных моделях визуально-языковых моделей. Метод использует низкоэнтропийные анкоры и цель формирования энтропии для снижения неопределенности ответов, при этом сохраняя высокодоверительные токены, что повышает устойчивость к визуальным искажениям на различных наборах данных и в различных семействах моделей ВЛ.

arxiv arXiv cs.AI · 7 д назад

MACR: Явное разрешение конфликтов в инференсе LLM

MACR представляет многоагентную систему рассуждений для разрешения конфликтов знаний в инференсе LLM путем совместной оценки внутренних и внешних знаний. Используя семантическую энтропию для измерения уверенности, MACR применяет три специализированных агента для индукции правил, обнаружения конфликтов и разрешения несоответствий между контекстами. Эмпирические результаты показывают, что MACR превосходит методы, являющиеся самыми передовыми, и обеспечивает интерпретируемые решения конфликтов.

arxiv arXiv cs.AI · 7 д назад

Настраивание моделей VLA требует меньше слоев, чем думалось

Модели вид-язык-действие демонстрируют серьезную слоевую редуndancy, несмотря на большое количество параметров. Метод сжатия без обучения, использующий центрированное ядерное выравнивание, удаляет парные слои, снижая глубину модели до 50% и позволяя ускорить обучение на 40-50% и инференс на до 30% без потери производительности, что подтверждено на симуляционных и реальных роботизированных задачах.

arxiv arXiv cs.AI · 7 д назад

Кадровая интеллектуальная рамка для публичной дискуссии в Нигерии

Кадровая интеллектуальная рамка (КИР) вводит девятимерную схему для анализа публичной дискуссии в Нигерии, решая проблему несоответствия контекста в системах искусственного интеллекта. Данные калибровки из 30 пунктов показывают, что схема-ориентированное подсказывание повышает точность классификации регистра с 33,3% до 73,3% и увеличивает общий показатель кадровой интеллектуальности с 73,2 до 78,6.

arxiv arXiv cs.AI · 7 д назад

Lagrange: Открытый словарный разреженный фреймворк для целостного управления автомобилем

Lagrange представляет открытый словарный, энергетический разреженный фреймворк для обобщённого целостного управления автомобилем. Он использует модели визуально-языковых моделей для генерации объектных предложений, не зависящих от класса, и кодирует их в непрерывные семантические токены, обеспечивая устойчивое обобщение на аномальные сценарии, при этом соблюдая кинематику автомобиля за счёт минимизации лагранжевой действия.

arxiv arXiv cs.AI · 7 д назад

Граничное встраивание для расщепления структуры графа

Граничное встраивание (BES) решает проблему взаимосвязи структуры графа, подавляя спорные корреляции соседей вблизи границ классов. BES использует адаптивное контрастное обучение для усиления дискриминации границ, что повышает точность классификации узлов в GCN в среднем на 3,3% (до 5,0% на WikiCS) и обеспечивает превосходную точность предсказания связей.

arxiv arXiv cs.AI · 7 д назад

Новый подход DTL для диагностики неисправностей при ограниченном объеме данных

Новый метод глубокой передачи знаний использует нелинейности систем для генерации диагностических данных при крайне ограниченном объеме данных. Данный подход использует периодическую процедуру многократного возбуждения и новую технику визуализации данных для расширения ограниченных данных о вибрациях, что позволяет проводить эффективную диагностику неисправностей с использованием предобученных CNN. Экспериментальные результаты на рельсовом контактном проводе подтверждают эффективность метода.

arxiv arXiv cs.AI · 7 д назад

SoftSkill: сжатие поведенческих навыков для адаптации в контексте

SoftSkill предлагает метод сжатия естественных языковых навыков в компактные скрытые предпосылки, что улучшает выполнение задач на SearchQA, LiveMath и DocVQA. Метод превосходит SkillOpt на 5,2–12,5 баллов по ключевым метрикам, при этом заменяя сотни или тысячи токенов Markdown на несколько виртуальных токенов.

arxiv arXiv cs.AI · 7 д назад

Анализ траекторий раскрывает структуру навыков, но не улучшает политики

Трехэтапный пайплайн извлекает библиотеки навыков из данных взаимодействия с интерфейсом, достигая высокой чистоты в пяти из восьми кластеров по сравнению с метками InteraSkill. Однако метод лишь слегка улучшает точность навыков-шагов на IW и не улучшает производительность на BrowseComp+ или ключевые метрики, что указывает на ограниченность переноса политики между доменами.

arxiv arXiv cs.AI · 7 д назад

AutoPass: агенты на основе доказательств для настройки производительности компилятора

AutoPass использует доказательства из работы в реальном времени и компилятора для направления решений по оптимизации, генерируемых ЛЛМ, и превосходит экспертные эвристики и классические методы автоматической настройки. Он достигает геометрических средних ускорений в 1,043 раза на системах x86-64 и в 1,117 раза на системах ARM64 без предварительного обучения или тонкой настройки.

arxiv arXiv cs.AI · 7 д назад

CRAX: Быстрый безопасный бенчмарк для обучения с усилением

CRAX вводит высокоточный ускоренный бенчмарк безопасности для обучения с усилением с использованием MuJoCo XLA. Он достигает ускорения до 100 раз по сравнению с бенчмарками на процессоре за счёт векторизации и ускорения аппаратными средствами, включая шесть наборов сред и три задачи для агентов на трёх уровнях сложности. Оценка шести методов безопасного обучения с усилением показывает, что ни один подход не доминирует, что подчёркивает компромиссы между производительностью и безопасностью, при этом куррикулярное обучение и передача безопасности улучшают результаты.

arxiv arXiv cs.LG · 7 д назад

Tri-Info: Общее предсказание сбоев для моделей VLA

Tri-Info использует теорию информации для обнаружения сбоев в моделях Vision-Language-Action, анализируя разнообразие действий, временнуую согласованность и связь состояний. Он достигает точности 83% на реальных задачах в шести моделях и трёх средах, превосходя предыдущие методы и сохраняя производительность без переобучения.

arxiv arXiv cs.LG · 7 д назад

Обучение больших языковых моделей для агентов с длительным жизненным циклом через перекрестную обобщение в разных областях

Новый фреймворк позволяет большим языковым моделям развивать способность "Соединить точки", что позволяет агентам с длительным жизненным циклом учиться на опыте и итеративно обновлять контекст своей среды. Фреймворк использует обучение с помощью вознаграждений с длинными последовательностями и пользовательскими задачами, чтобы стимулировать перекрестное обобщение в разных областях, демонстрируя эффективную работу вне распределения как в одной области, так и при переходах между областями.

arxiv arXiv cs.LG · 7 д назад

VIMPO: критерий-бесплатная оптимизация политики для больших языковых моделей

VIMPO представляет метод критерий-бесплатной оптимизации политики, который получает функцию значений, имплицированную политикой, из обучения по репликации с регуляризацией КЛ. Он позволяет интегрировать вознаграждение с верификацией без обучения критерия и превосходит GRPO на математических тестах, особенно при шумных вознаграждениях.