AI agents
arxiv arXiv cs.CL · 1 д назад

Рынки микро-транзакций для проверенной информации о продуктах в агентной электронной коммерции

Агенты в электронной коммерции сталкиваются с дефицитом надежной информации о продуктах, а не с проблемой соответствия продуктов. Предлагаемая модель микро-транзакций позволяет агентам платить дробные центы за доступ к проверенным данным, таким как истории обслуживания и отчеты о тестах, с определением цен и доверия через репутацию. Эта система приоритизирует реальную продукт-качество и получение информации в реальном времени, а не гладкость чат-ботов.

arxiv arXiv cs.CL · 1 д назад

SHERLOC: структурированная локализация диагностики для агентов восстановления кода

SHERLOC представляет тренировку-бесплатную систему, которая объединяет логический LLM с компактными инструментами репозитория и самореконструкцией. Она достигает наилучшей точности и полноты локализации на SWE-Bench, повышая показатель восстановления агентов на 5,95 процентных пунктов, одновременно снижая использование локализации и общего количества токенов на 36,7% и 23,1% соответственно.

arxiv arXiv cs.CL · 1 д назад

Metis: Связывание памяти текста и кода для самоэволюционных агентов

Metis вводит иерархическую двойную память, сочетающую память текста и память кода, чтобы улучшить самоэволюционные агенты. Она организует опыт в виде планов выполнения, фактов и ошибок, и кристаллизует повторно используемые планы в проверенные инструменты только при обосновании. На AppWorld Metis достигает на 20,6% большей точности выполнения задач и на 22,8% меньших затрат на выполнение по сравнению с ReAct, при лучшем общем балансе по точности, эффективности и затратам памяти.

arxiv arXiv cs.CL · 1 д назад

MedBench v5: Динамический бенчмарк для клинической ИИ

MedBench v5 представляет динамический, процесс-ориентированный бенчмарк для клинических модальных моделей, включающий клиническую когнитивную реактивность и атомарные навыки по 63 задачам. В нем предусмотрены стресс-факторы для анализа деградации и мониторинга распространения галлюцинаций через пять узлов рассуждения, что показывает, что высокая производительность по задачам не гарантирует стабильность процесса.

arxiv arXiv cs.CL · 1 д назад

Agon: автономная система исследований через экономику запросов

Agon — это автономная система исследований, которая использует экономику запросов для проверки проверяемых утверждений в рабочих процессах, оставляя оценку людям-исследователям. Система работает в течение 444 итераций с минимальным количеством запросов и без кода, написанного человеком, и выявляет топологию сбоев по степени серьёзности, возможность исправления, видимости и месту расположения функциональности. Система демонстрирует масштабируемость и продвигает исследование к парадигме, в которой машины управляют масштабом, а люди — руководят оценкой.

arxiv arXiv cs.CL · 1 д назад

Диалог к открытию: эlicitация предпочтений с учетом атрибутов

Диалог к открытию (D2D) — это атрибутно-ориентированный фреймворк, который улучшает поисковые запросы в продуктах за счёт динамического направления взаимодействия пользователя. Он адаптирует приоритеты запросов и время рекомендаций, достигая на 22,2–29,9% более высокой точности нахождения целей, на 6,6–16,1% меньшего отказа и на 27,5% короче диалога по сравнению с существующими методами, при этом пользовательские исследования подтверждают улучшение удовлетворённости и эффективности.

arxiv arXiv cs.CL · 1 д назад

Кадр EDV обеспечивает надежное обучение опыта для агентных систем

Кадр EDV вводит парадигму Execute-Distill-Verify для преодоления тупика самоподтверждения в агентах на основе больших языковых моделей. Используя несколько агентов для изучения задач, третий агент для извлечения опыта и этап проверки на основе консенсуса, EDV гарантирует, что только точные опыты сохраняются в памяти. Оценка на tau2-bench, Mind2Web и MMTB показывает, что EDV превосходит сильные базовые модели, что демонстрирует его эффективность в обеспечении устойчивого саморазвития агентов.

arxiv arXiv cs.CL · 1 д назад

AGORA: Бенчмарк для агентного анализа документов в рабочей среде

Agora представляет бенчмарк с 362 вопросами и 9664 официальных рабочих документов, в сумме составляющих 372 млн токенов, превышающих контекстную длину любого модели. Он оценивает способность агентов осознанно изучать документы, устранять противоречия и проводить рассуждения в разных областях, показывая, что даже самые продвинутые модели достигают лишь 59,4% точности.

arxiv arXiv cs.CL · 1 д назад

NatureBench оценивает способность ИИ-агентов к кодированию к научным открытиям

NatureBench представляет бенчмарк из 90 задач, взятых из статей из журналов Nature, для оценки способности ИИ-агентов к достижению научных открытий. При протоколе, запрещающем использование веб-поиска, лучший модель превосходит предыдущие достижения только на 17,8% задач. Агенты в основном успешно решают задачи, переводя научные проблемы в задачи надзирания, а не через оригинальное научное изобретение.

arxiv arXiv cs.CL · 1 д назад

MEMPROBE: Бенчмарк для восстановления долгосрочной памяти в агентах

MEMPROBE — это бенчмарк, который оценивает долгосрочную память в ИИ-агентах путем восстановления скрытого состояния пользователя из памяти агента после взаимодействия. Он проверяет 5 систем памяти в 50 имитированных пользователях с каждой из 31 измерения, и показывает, что выполнение задачи высокое даже для агентов без памяти, в то время как восстановление памяти остается умеренным и снижается при использовании метода top-k. MEMPROBE обеспечивает прямую и аудитируемую оценку сохранения памяти и предлагает восстановление как ключевую цель для будущего развития агентов.

arxiv arXiv cs.CL · 1 д назад

Qwen-AgentWorld: Языковые модели мира для общих агентов

Qwen-AgentWorld-35B-A3B и Qwen-AgentWorld-397B-A17B — это первые языковые модели мира, которые имитируют агентские среды в семи областях с помощью длинной цепи мышления. Обученные с помощью трехэтапной схемы — CPT, SFT и RL — эти модели превосходят существующие передовые модели на AgentWorldBench, критерии, полученные из реальных взаимодействий пяти моделей на девяти установленных задачах.

arxiv arXiv cs.LG · 1 д назад

Сжатие трансформеров в рекуррентные трансформеры для эффективного использования памяти

Новая методика сжатия передает стратегию сжатия наблюдений полных историй трансформеров в рекуррентные модели. Обучая учителя модели сжимать истории наблюдений в фиксированные размеры, метод синхронизирует память ученика с сжатием учителя. Это позволяет рекуррентным трансформерам достигать производительности, близкой к полному использованию истории наблюдений, при линейной сложности, что делает их применимыми для задач робототехники с длинными горизонтами.

github CrewAI · 1 д назад

Служба CrewAI 1.14.8a3 - Заметки по выпуску

Служба CrewAI 1.14.8a3 вводит единое декларативное загрузку потоков и улучшает пользовательский интерфейс при запуске команд для групп. Она объединяет команды запуска run и запуска потока crewai, добавляет поддержку декларативного CLI потока и позволяет использовать @router() как метод запуска потока с типизированными схемами выходных данных для инструментов.

arxiv arXiv cs.AI · 1 д назад

FleetAgent: Эффективное телеманипулирование для автономных флотов

FleetAgent — это облачный мультимодальный большой языковой модель, обрабатывающий компактные векторизованные сообщения от автомобиля к сети, что позволяет обеспечивать эффективное и объяснимое телеманипулирование. Он снижает объём данных вверх по каналу вплоть до 625 раз и объём памяти KV-кэша в 625 раз по сравнению с исходными изображениями или текстом, и превосходит Qwen2.5-VL-7B по показателям Lingo-Judge и вероятности сбоев при вмешательстве на наборе данных VecEval.

arxiv arXiv cs.AI · 1 д назад

ARCO: адаптивный рубрик с когенерацией для агентов на основе многошаговых ЛЛМ

ARCO представляет рамку рубрики, которая позволяет осуществлять присвоение кредитов на уровне шагов для агентов на основе многошаговых ЛЛМ. Он одновременно обновляет общую модель с головками генерации и оценки, позволяя содержанию рубрики и функции оценки когенерироваться через данные на-политики, что улучшает производительность и интерпретируемость на различных тестах.

arxiv arXiv cs.AI · 1 д назад

Модель социального мира для долгосрочной социальной интеллектуальности

Модель социального мира разбивает социальные взаимодействия на пять измерений для обеспечения обучения в замкнутом цикле. Она позволяет открытым источникам моделей стабильно улучшаться и сохранять социальные способности, превосходя базовые модели и достигая ключевых показателей, сравнимых с закрытым Gemini 3 Flash, без потери при изменении уровня сложности.

arxiv arXiv cs.AI · 1 д назад

DataClaw0: Агентная настройка мультимодальных данных из исходных потоков

DataClaw0 вводит агентную парадигму для активного уточнения мультимодальных данных с целью соответствия пользовательским и последующим намерениям. Оно использует двухэтапную схему с фактами-анкерами для генерации масштабного набора данных в пяти областях и достигает сильной синхронизации с помощью надзора и GRPO. Оценка на генерации видео, VQA и навигации в интерфейсе, DataClaw0 создает данные высокой информационной плотности, что позволяет эффективно адаптировать модели при минимальном объеме обучающих данных.

arxiv arXiv cs.AI · 1 д назад

Оверсайт LLM-агента должен перейти от калибровки к контролю, зависящему от действий

Текущий оверсайт LLM-агентов основан на скалярных оценках рисков, однако это не позволяет определить, улучшает ли вмешательство результаты. В статье вводится метрика "преимущество вмешательства" как ключевого показателя, демонстрируя, что контроль, зависящий от действий, превосходит скалярное распределение на всех бенчмарках, с значительным снижением разрыва в интерактивных режимах. Калибровка сама по себе не устраняет фундаментальную несоответствие в производительности контроля.

arxiv arXiv cs.AI · 1 д назад

SwarmX: агентское планирование для систем с низкой задержкой

SwarmX вводит нейронные предикторы для обеспечения планирования с учетом запросов в агентных ИИ-системах. Он снижает хвостовую задержку на 61,5% и обеспечивает до 2 раз большую пропускную способность по сравнению с производственными планировщиками при одинаковых уровнях сервиса.

arxiv arXiv cs.AI · 1 д назад

Надежная обратная связь может нанести вред агентам с использованием инструментов

Исследования показывают, что ложная обратная связь может привести к тому, что агенты на основе языковых моделей будут выполнять задачи хуже, чем при отсутствии обратной связи вообще. На платформе HotpotQA, Qwen2.5-7B снижается с 44,8 до 4,7 F1 при случайной сортировке результатов, несмотря на чистые инструменты. Эти результаты указывают на то, что приросты, связанные с инструментами, могут быть переоценены, и контрольные испытания без обратной связи являются необходимыми для корректной оценки.