AI agents
arxiv arXiv cs.AI · 6 д назад

Анализ траекторий раскрывает структуру навыков, но не улучшает политики

Трехэтапный пайплайн извлекает библиотеки навыков из данных взаимодействия с интерфейсом, достигая высокой чистоты в пяти из восьми кластеров по сравнению с метками InteraSkill. Однако метод лишь слегка улучшает точность навыков-шагов на IW и не улучшает производительность на BrowseComp+ или ключевые метрики, что указывает на ограниченность переноса политики между доменами.

arxiv arXiv cs.AI · 6 д назад

AutoPass: агенты на основе доказательств для настройки производительности компилятора

AutoPass использует доказательства из работы в реальном времени и компилятора для направления решений по оптимизации, генерируемых ЛЛМ, и превосходит экспертные эвристики и классические методы автоматической настройки. Он достигает геометрических средних ускорений в 1,043 раза на системах x86-64 и в 1,117 раза на системах ARM64 без предварительного обучения или тонкой настройки.

arxiv arXiv cs.LG · 6 д назад

Tri-Info: Общее предсказание сбоев для моделей VLA

Tri-Info использует теорию информации для обнаружения сбоев в моделях Vision-Language-Action, анализируя разнообразие действий, временнуую согласованность и связь состояний. Он достигает точности 83% на реальных задачах в шести моделях и трёх средах, превосходя предыдущие методы и сохраняя производительность без переобучения.

arxiv arXiv cs.LG · 6 д назад

Обучение больших языковых моделей для агентов с длительным жизненным циклом через перекрестную обобщение в разных областях

Новый фреймворк позволяет большим языковым моделям развивать способность "Соединить точки", что позволяет агентам с длительным жизненным циклом учиться на опыте и итеративно обновлять контекст своей среды. Фреймворк использует обучение с помощью вознаграждений с длинными последовательностями и пользовательскими задачами, чтобы стимулировать перекрестное обобщение в разных областях, демонстрируя эффективную работу вне распределения как в одной области, так и при переходах между областями.

arxiv arXiv cs.LG · 6 д назад

Контроль на основе LLM в многоконтролируемых играх

Характеристика иерархической системы, использующей предобученный LLM для выбора политик RL-навыков, превосходит плоскую RL в среде 2v2 King of the Hill. Она соответствует показателю эффективности, достигнутому при ручной разработке дерева поведения, и воспринимается как более человеческая на 60% пользователей, что подчеркивает эффективную координацию и адаптивность без ручного проектирования правил.

arxiv arXiv cs.LG · 6 д назад

AI Экономист-агент: Фреймворк анализа на основе моделей

AI Экономист-агент использует RAG, графы знаний и ЛЛМ для генерации экономических нарративов, основанных на теории и данных. Он обеспечивает анализ на основе моделей, извлечение доказательств и генерацию отчетов, гарантируя экономическую целостность и отслеживаемость за счет явных вычислений моделей.

arxiv arXiv cs.LG · 6 д назад

Сенсорно-моторные модели мира для восприятия, синхронизированного с действиями

Вводится сенсорно-моторная модель мира (SMWM), которая обучает компактные, действия-ориентированные скрытые представления на основе оффлайн-траекторий. Она использует регуляризацию обратных динамик для предотвращения коллапса представлений и обеспечения стабильных, интерпретируемых моделей мира без необходимости фиксированных кодировщиков или сложных регуляризаторов. SMWM достигает конкурентоспособных результатов по планированию в задачах 2D и 3D управления.

arxiv arXiv cs.LG · 6 д назад

Pose6DAug: Физически обоснованный обмен объектами в многокамерном виде

Pose6DAug обеспечивает аугментацию данных для роботов путем обмена объектами в успешных сессиях, при этом сохраняя физически допустимые траектории 6D ориентации. Оно работает в 3D с использованием сетки, закрепленной за временно согласованными ориентациями, обеспечивая согласованность во множестве камер и физическую обоснованность. Тонкая настройка политики VLA на этом аугментированном данных повышает показатели успешного обнаружения новых объектов на 16,5% по сравнению с современными базовыми моделями.

arxiv arXiv cs.LG · 6 д назад

Адаптивное обучение с использованием ЛЛМ повышает вовлеченность и эффективность

Новая система использует поддержку по тематике для адаптации стратегий обучения в зависимости от успеваемости студентов и предмета. Результаты A/B тестирования с 656 разговорами студентов показывают, что модель снижает количество взаимодействий на 3 шага и повышает конверсию стратегий обучения с 19,1% до 28,1% при использовании стохастического роутера.

arxiv arXiv cs.LG · 6 д назад

MedRLM: Рекурсивная мультимодальная интеллектуальная система в области здравоохранения

MedRLs обеспечивает долгосрочное клиническое мышление за счёт рекурсивного анализа данных пациента в тексте, изображениях, сенсорах и руководствах. Оно интегрирует специализированные агенты и граф памяти клинических доказательств для связи наблюдений с доказательствами и критериями направления, поддерживая сенсорное триггерное мышление и ревью клиницистов с учётом неопределённости.

arxiv arXiv cs.LG · 7 д назад

MAMO: Многоагентная система для многокритериальной оптимизации с ограничениями

MAMO представляет многоагентную систему на основе обучения с усилением, направленную на решение проблемы баланса минимизации затрат и удовлетворения ограничений в динамических средах. Она разделяет выполнение задач на выбор весов вознаграждений, рассматривая выбор весов как задачу обучения, что позволяет достигать более автономных и устойчивых решений.

arxiv arXiv cs.CL · 7 д назад

TerraMARS: Пайплайн малого языкового моделирования для литературы по трансформации Марса

TerraMARS — это пайплайн, который использует малую языковую модель, адаптированную к области, для извлечения структурированной информации из научной литературы по Марсу. Он преобразует неструктурированный текст в формат JSON и поддерживает ответы на вопросы, связанные с трансформацией Марса, что позволяет интегрировать его в моделирование пригодности для жизни и цифровых двойников. Пайплайн использует Google Gemma 3 1B, тонко настроенную с использованием QLoRA на наборах данных, специфичных для Марса, хотя требуется дальнейшая работа для повышения точности и фактической согласованности.

arxiv arXiv cs.CL · 7 д назад

Оценка агентных систем анализа для исследований с участием ИИ

Исследование оценивает четыре системы анализа ИИ на шести моделях языков, в результате чего OpenAIReview с GPT-5.5 достигает точности 83,0% при сопоставлении качества научных статей с внешними сигналами и обнаруживает 71,6% введённых ошибок. Реальные отзывы пользователей показывают положительную оценку, с соотношением голосов 1,44 к 1, однако ошибочные положительные результаты и незначительные замечания остаются частыми.

arxiv arXiv cs.CL · 7 д назад

AgentFinVQA: аудитируемый, локальный вопрос-ответ по финансовым графикам

AgentFinVQA представляет многоагентную систему для вопросов по финансовым графикам, обеспечивающую аудитируемость и возможность развертывания на локальной инфраструктуре без значительного снижения точности. Она превосходит базовые модели на +7,68 pp при использовании проприетарного ядра и на +4,84 pp с открытыми весами Qwen3.6-27B-FP8, при этом обеспечивая сигнал уверенности через вывод верификатора, что улучшает маршрутизацию ручного обзора.

arxiv arXiv cs.CL · 7 д назад

AtomMem: Простая и эффективная система памяти для агентов LLM

AtomMem представляет систему памяти, которая хранит высокочастотные атомарные факты из длительных взаимодействий. Она использует иерархические структуры событий и временные профили для отслеживания согласованных эпизодических контекстов и изменяющихся пользовательских характеристик, обеспечивая стабильное и эффективное эволюционирование памяти. Эксперименты на бенчмарке LoCoMo показывают, что AtomMem достигает наилучших результатов в задачах логического мышления.

arxiv arXiv cs.CL · 7 д назад

Нулевая задача агентных LLM извлекает патологию лёгких из повествований

Нулевая задача агентного потока, использующего открытые LLM, извлекает 13 синоптических полей Колледжа американских патологов из отчетов о патологических исследованиях лёгочной резекции. Наилучшая модель (GPT-OSS-20B) достигла значения Micro-F1 0.893, превосходя базовый уровень воспроизведения и точно отражая сложные патологические отношения без специализированного обучения.

arxiv arXiv cs.CL · 7 д назад

Фреймворк мультиагентной транзакционной памяти

Фреймворк мультиагентной транзакционной памяти (MATM) обеспечивает хранение и извлечение траекторий, сгенерированных агентами на уровне популяции. Он позволяет производящим агентам делиться процедурными знаниями с потребляющими агентами, что улучшает выполнение задач и снижает количество шагов взаимодействия в интерактивных средах, таких как ALFWorld и WebArena, без координации или совместной тренировки.

arxiv arXiv cs.CL · 7 д назад

GEMS: Геометрические ограничения обеспечивают мульти-семантическую суперпозицию в LLMs

GEMS обеспечивает обучение-бесподобную суперпозицию нескольких семантических направлений в LLMs за счёт устранения распределительной дисперсии и направляющего интерференции с помощью геометрических ограничений. На GSM8K оно сохраняет точность на уровне 98% при трёх неподходящих математических направлениях, в то время как неограниченное сложение падает до 4%; на Wikitext-2 оно повышает PPL всего на 2,2%.

arxiv arXiv cs.CL · 7 д назад

Обучение больших языковых моделей для агентов с длительным жизненным циклом через перекрестную обобщение в разных областях

Новый фреймворк позволяет больших языковых моделей учиться "Соедините точки" с использованием обучения с подкреплением и длинных последовательностей развертывания. Метод включает специализированные задачи и среды, способствующие развитию мета-способностей, демонстрируя сильное перекрестное обобщение и эффективность в условиях, отличающихся от распределения. Реализации доступны по адресу https://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_cod.

arxiv arXiv cs.CL · 7 д назад

Переоценивание привилегий при выборе инструментов в агентах на основе языковых моделей

Агенты на основе языковых моделей часто выбирают инструменты с высокими привилегиями, несмотря на наличие достаточных альтернатив с более низкими привилегиями. Это поведение, связанное с переоцениванием привилегий, усиливается при временных сбоях инструментов и не стабилизируется при общем обеспечении безопасности. Новый метод постобучения, ориентированный на привилегии, снижает ненужное использование инструментов с высокими привилегиями, сохраняя при этом функциональность агента.