AI agents
arxiv arXiv cs.CL · 1 д назад

Диалог к открытию: эlicitация предпочтений с учетом атрибутов

Диалог к открытию (D2D) — это атрибутно-ориентированный фреймворк, который улучшает поисковые запросы в продуктах за счёт динамического направления взаимодействия пользователя. Он адаптирует приоритеты запросов и время рекомендаций, достигая на 22,2–29,9% более высокой точности нахождения целей, на 6,6–16,1% меньшего отказа и на 27,5% короче диалога по сравнению с существующими методами, при этом пользовательские исследования подтверждают улучшение удовлетворённости и эффективности.

arxiv arXiv cs.CL · 1 д назад

Кадр EDV обеспечивает надежное обучение опыта для агентных систем

Кадр EDV вводит парадигму Execute-Distill-Verify для преодоления тупика самоподтверждения в агентах на основе больших языковых моделей. Используя несколько агентов для изучения задач, третий агент для извлечения опыта и этап проверки на основе консенсуса, EDV гарантирует, что только точные опыты сохраняются в памяти. Оценка на tau2-bench, Mind2Web и MMTB показывает, что EDV превосходит сильные базовые модели, что демонстрирует его эффективность в обеспечении устойчивого саморазвития агентов.

arxiv arXiv cs.CL · 1 д назад

AGORA: Бенчмарк для агентного анализа документов в рабочей среде

Agora представляет бенчмарк с 362 вопросами и 9664 официальных рабочих документов, в сумме составляющих 372 млн токенов, превышающих контекстную длину любого модели. Он оценивает способность агентов осознанно изучать документы, устранять противоречия и проводить рассуждения в разных областях, показывая, что даже самые продвинутые модели достигают лишь 59,4% точности.

arxiv arXiv cs.CL · 1 д назад

NatureBench оценивает способность ИИ-агентов к кодированию к научным открытиям

NatureBench представляет бенчмарк из 90 задач, взятых из статей из журналов Nature, для оценки способности ИИ-агентов к достижению научных открытий. При протоколе, запрещающем использование веб-поиска, лучший модель превосходит предыдущие достижения только на 17,8% задач. Агенты в основном успешно решают задачи, переводя научные проблемы в задачи надзирания, а не через оригинальное научное изобретение.

arxiv arXiv cs.CL · 1 д назад

MEMPROBE: Бенчмарк для восстановления долгосрочной памяти в агентах

MEMPROBE — это бенчмарк, который оценивает долгосрочную память в ИИ-агентах путем восстановления скрытого состояния пользователя из памяти агента после взаимодействия. Он проверяет 5 систем памяти в 50 имитированных пользователях с каждой из 31 измерения, и показывает, что выполнение задачи высокое даже для агентов без памяти, в то время как восстановление памяти остается умеренным и снижается при использовании метода top-k. MEMPROBE обеспечивает прямую и аудитируемую оценку сохранения памяти и предлагает восстановление как ключевую цель для будущего развития агентов.

arxiv arXiv cs.CL · 1 д назад

Qwen-AgentWorld: Языковые модели мира для общих агентов

Qwen-AgentWorld-35B-A3B и Qwen-AgentWorld-397B-A17B — это первые языковые модели мира, которые имитируют агентские среды в семи областях с помощью длинной цепи мышления. Обученные с помощью трехэтапной схемы — CPT, SFT и RL — эти модели превосходят существующие передовые модели на AgentWorldBench, критерии, полученные из реальных взаимодействий пяти моделей на девяти установленных задачах.

arxiv arXiv cs.LG · 1 д назад

Сжатие трансформеров в рекуррентные трансформеры для эффективного использования памяти

Новая методика сжатия передает стратегию сжатия наблюдений полных историй трансформеров в рекуррентные модели. Обучая учителя модели сжимать истории наблюдений в фиксированные размеры, метод синхронизирует память ученика с сжатием учителя. Это позволяет рекуррентным трансформерам достигать производительности, близкой к полному использованию истории наблюдений, при линейной сложности, что делает их применимыми для задач робототехники с длинными горизонтами.

github CrewAI · 1 д назад

Служба CrewAI 1.14.8a3 - Заметки по выпуску

Служба CrewAI 1.14.8a3 вводит единое декларативное загрузку потоков и улучшает пользовательский интерфейс при запуске команд для групп. Она объединяет команды запуска run и запуска потока crewai, добавляет поддержку декларативного CLI потока и позволяет использовать @router() как метод запуска потока с типизированными схемами выходных данных для инструментов.

arxiv arXiv cs.AI · 1 д назад

FleetAgent: Эффективное телеманипулирование для автономных флотов

FleetAgent — это облачный мультимодальный большой языковой модель, обрабатывающий компактные векторизованные сообщения от автомобиля к сети, что позволяет обеспечивать эффективное и объяснимое телеманипулирование. Он снижает объём данных вверх по каналу вплоть до 625 раз и объём памяти KV-кэша в 625 раз по сравнению с исходными изображениями или текстом, и превосходит Qwen2.5-VL-7B по показателям Lingo-Judge и вероятности сбоев при вмешательстве на наборе данных VecEval.

arxiv arXiv cs.AI · 1 д назад

ARCO: адаптивный рубрик с когенерацией для агентов на основе многошаговых ЛЛМ

ARCO представляет рамку рубрики, которая позволяет осуществлять присвоение кредитов на уровне шагов для агентов на основе многошаговых ЛЛМ. Он одновременно обновляет общую модель с головками генерации и оценки, позволяя содержанию рубрики и функции оценки когенерироваться через данные на-политики, что улучшает производительность и интерпретируемость на различных тестах.

arxiv arXiv cs.AI · 1 д назад

Модель социального мира для долгосрочной социальной интеллектуальности

Модель социального мира разбивает социальные взаимодействия на пять измерений для обеспечения обучения в замкнутом цикле. Она позволяет открытым источникам моделей стабильно улучшаться и сохранять социальные способности, превосходя базовые модели и достигая ключевых показателей, сравнимых с закрытым Gemini 3 Flash, без потери при изменении уровня сложности.

arxiv arXiv cs.AI · 1 д назад

DataClaw0: Агентная настройка мультимодальных данных из исходных потоков

DataClaw0 вводит агентную парадигму для активного уточнения мультимодальных данных с целью соответствия пользовательским и последующим намерениям. Оно использует двухэтапную схему с фактами-анкерами для генерации масштабного набора данных в пяти областях и достигает сильной синхронизации с помощью надзора и GRPO. Оценка на генерации видео, VQA и навигации в интерфейсе, DataClaw0 создает данные высокой информационной плотности, что позволяет эффективно адаптировать модели при минимальном объеме обучающих данных.

arxiv arXiv cs.AI · 1 д назад

Оверсайт LLM-агента должен перейти от калибровки к контролю, зависящему от действий

Текущий оверсайт LLM-агентов основан на скалярных оценках рисков, однако это не позволяет определить, улучшает ли вмешательство результаты. В статье вводится метрика "преимущество вмешательства" как ключевого показателя, демонстрируя, что контроль, зависящий от действий, превосходит скалярное распределение на всех бенчмарках, с значительным снижением разрыва в интерактивных режимах. Калибровка сама по себе не устраняет фундаментальную несоответствие в производительности контроля.

arxiv arXiv cs.AI · 1 д назад

SwarmX: агентское планирование для систем с низкой задержкой

SwarmX вводит нейронные предикторы для обеспечения планирования с учетом запросов в агентных ИИ-системах. Он снижает хвостовую задержку на 61,5% и обеспечивает до 2 раз большую пропускную способность по сравнению с производственными планировщиками при одинаковых уровнях сервиса.

arxiv arXiv cs.AI · 1 д назад

Надежная обратная связь может нанести вред агентам с использованием инструментов

Исследования показывают, что ложная обратная связь может привести к тому, что агенты на основе языковых моделей будут выполнять задачи хуже, чем при отсутствии обратной связи вообще. На платформе HotpotQA, Qwen2.5-7B снижается с 44,8 до 4,7 F1 при случайной сортировке результатов, несмотря на чистые инструменты. Эти результаты указывают на то, что приросты, связанные с инструментами, могут быть переоценены, и контрольные испытания без обратной связи являются необходимыми для корректной оценки.

arxiv arXiv cs.AI · 1 д назад

AutoRAS: обучение устойчивых агентских систем с примитивными представлениями

AutoRAS предлагает рамку для автоматического проектирования устойчивых агентских систем путем генерации последовательностей симболов, которые кодируют как структурную связность, так и поведенческие действия. Она оптимизирует эти последовательности с помощью сигналов безопасности, полученных при выполнении и на основе потоковых целей, обеспечивая превосходную производительность как в нормальных, так и в враждебных условиях, при минимальном снижении при атаках.

arxiv arXiv cs.AI · 1 д назад

CORTIS: текстовое адаптация моделей речи

CORTIS позволяет голосовым агентам, ориентированным на задачи, генерировать структурированные речевые выходы путем тонкой настройки моделей речи с использованием только текстовой задачной поддержки. Он превосходит архитектуры ASR-LLM при ухудшении акустических характеристик, особенно в сохранении высокого уровня семантики задач, не требуя парных аннотаций речи и целей во время обучения.

arxiv arXiv cs.AI · 1 д назад

Разделение декларативных и процедурных знаний в моделях визуально-языковых-действий

w$^{2}$VLA вводит модульную модель визуально-языковых-действий, которая разделяет декларативные и процедурные знания. Структурирование потока информации позволяет обеспечить надежное копирование поведения и нулевое переносимость навыков на новые, несхожие объекты.

arxiv arXiv cs.AI · 1 д назад

Проверка на этапе проектирования агентных ИИ-процессов

Новый подход проверяет агентные ИИ-процессы на этапе проектирования, моделируя их как композиции повторно используемых элементов. Он применяет двенадцать структурных правил для обеспечения совместимости, надёжно обнаруживая ошибки проектирования даже после структурных преобразований, таких как разбиение задач.

arxiv arXiv cs.AI · 1 д назад

Обнаружение ошибок в процедуре без обучения с использованием моделей видео-языка

Единая безобученная система ZeProM использует предобученную модель видео-языка для одновременного выполнения обнаружения ошибок в процедуре и временного разделения действий. Она достигает улучшения на 4,4 пункта по EDA и на 2,0 пункта по F1@.5 на задачах EgoPER, что соответствует или превосходит результаты обучающих методов без специфического обучения для задачи.