AI agents
arxiv arXiv cs.AI · 2 д назад

SwarmX: агентское планирование для систем с низкой задержкой

SwarmX вводит нейронные предикторы для обеспечения планирования с учетом запросов в агентных ИИ-системах. Он снижает хвостовую задержку на 61,5% и обеспечивает до 2 раз большую пропускную способность по сравнению с производственными планировщиками при одинаковых уровнях сервиса.

arxiv arXiv cs.AI · 2 д назад

Надежная обратная связь может нанести вред агентам с использованием инструментов

Исследования показывают, что ложная обратная связь может привести к тому, что агенты на основе языковых моделей будут выполнять задачи хуже, чем при отсутствии обратной связи вообще. На платформе HotpotQA, Qwen2.5-7B снижается с 44,8 до 4,7 F1 при случайной сортировке результатов, несмотря на чистые инструменты. Эти результаты указывают на то, что приросты, связанные с инструментами, могут быть переоценены, и контрольные испытания без обратной связи являются необходимыми для корректной оценки.

arxiv arXiv cs.AI · 2 д назад

AutoRAS: обучение устойчивых агентских систем с примитивными представлениями

AutoRAS предлагает рамку для автоматического проектирования устойчивых агентских систем путем генерации последовательностей симболов, которые кодируют как структурную связность, так и поведенческие действия. Она оптимизирует эти последовательности с помощью сигналов безопасности, полученных при выполнении и на основе потоковых целей, обеспечивая превосходную производительность как в нормальных, так и в враждебных условиях, при минимальном снижении при атаках.

arxiv arXiv cs.AI · 2 д назад

CORTIS: текстовое адаптация моделей речи

CORTIS позволяет голосовым агентам, ориентированным на задачи, генерировать структурированные речевые выходы путем тонкой настройки моделей речи с использованием только текстовой задачной поддержки. Он превосходит архитектуры ASR-LLM при ухудшении акустических характеристик, особенно в сохранении высокого уровня семантики задач, не требуя парных аннотаций речи и целей во время обучения.

arxiv arXiv cs.AI · 2 д назад

Разделение декларативных и процедурных знаний в моделях визуально-языковых-действий

w$^{2}$VLA вводит модульную модель визуально-языковых-действий, которая разделяет декларативные и процедурные знания. Структурирование потока информации позволяет обеспечить надежное копирование поведения и нулевое переносимость навыков на новые, несхожие объекты.

arxiv arXiv cs.AI · 2 д назад

Проверка на этапе проектирования агентных ИИ-процессов

Новый подход проверяет агентные ИИ-процессы на этапе проектирования, моделируя их как композиции повторно используемых элементов. Он применяет двенадцать структурных правил для обеспечения совместимости, надёжно обнаруживая ошибки проектирования даже после структурных преобразований, таких как разбиение задач.

arxiv arXiv cs.AI · 2 д назад

Обнаружение ошибок в процедуре без обучения с использованием моделей видео-языка

Единая безобученная система ZeProM использует предобученную модель видео-языка для одновременного выполнения обнаружения ошибок в процедуре и временного разделения действий. Она достигает улучшения на 4,4 пункта по EDA и на 2,0 пункта по F1@.5 на задачах EgoPER, что соответствует или превосходит результаты обучающих методов без специфического обучения для задачи.

media r/LocalLLaMA · 2 д назад

MiniMax 2.7 работает на 47 ТГ 1200PP с 96 ГБ VRAM

MiniMax 2.7, модель с 47 терапараметрами, работает на системе с 96 ГБ VRAM и 192 ГБ DDR5 ОЗУ, используя плату MSI B840 и процессор 9900X. Модель функционирует как модель класса агента с сильным следованием инструкций и вызовом инструментов, поддерживаемая циклической обработкой с тремя агентами последовательности на основе процессора и плотной моделью 12B, которая отслеживает ошибки.

lab Claude Code Releases · 2 д назад

Примечания по выпуску Claude v2.1.187

Claude v2.1.187 вводит блокировку учетных данных сандбокса, ограничения моделей, настроенные организацией, поддержку клика мыши в полноэкранном режиме, а также исправления сбоев команд, зависаний инструментов и стабильности интерфейса. Обновления также улучшают обработку структурированных выходов, отслеживание глубины агента и управление плагинами, с улучшением совместимости с VSCode и терминалом.

media r/LocalLLaMA · 2 д назад

Агент Tmax-27B для малых видеокарт с обучением DPPO

Tmax-27B — это терминальный агент, основанный на Qwen3.6-27B, обученный с использованием DPPO (RL), достигающий 43% на Terminal Bench 2.0 и 69% на TB Lite. Для работы на потребительских видеокартах он квантируется с использованием калиброванных матриц важности GGUF моделей с 2 до 5 бит на вес, с встроенной головой MTP, обеспечивающей спекулятивное декодирование. Модель IQ2_XS размером 8,5 ГиБ достигает 70% в задачах агентного программирования, превосходя простую квантизацию и демонстрируя стабильность генерации инструментальных вызовов.

lab Anthropic News · 2 д назад

Введение Claude Tag для команд Slack

Claude Tag позволяет командам в Slack помечать @Claude для делегирования задач, с доступом к выбранным каналам, инструментам и кодовым базам. Он изучает контекст канала, работает асинхронно и принимает инициативу, активно обновляя пользователей о релевантной информации. Сегодня 65% кода продукта команды Anthropic создается внутренним Claude Tag, и он теперь доступен в бета-версии для клиентов Claude Enterprise и Team.

media r/LocalLLaMA · 2 д назад

Используемые рабочие процессы для длительных локальных моделей языковой обработки

Hayden разработал удерживающий механизм knot для управления длительными локальными задачами моделей языковой обработки. Он обеспечивает повторно используемые рабочие процессы с профилями агентов, мониторингом событий файловой системы и автоматическими триггерами, используя Pi.dev как стандартного агента.

media r/LocalLLaMA · 2 д назад

Лучшие локальные модели для рассуждений в агентной ИИ

Создатель EverFern спрашивает, какие локальные модели лучше всего подходят для агентных рабочих процессов и использования в браузере или на компьютере. Он отмечает, что интеллект модели редко является ограничивающим фактором, и что надежность и системы восстановления важнее, чем выбор модели.

media r/LocalLLaMA · 2 д назад

SFT или RL-первый для обучения агента Qwen 3.5 с использованием инструментов?

Пользователь спрашивает, рекомендуется ли все еще последовательное применение надзирательного мелкого настройки (SFT) за которым следует обучение с помощью реверсной связи (RL), для обучения агентов Qwen 3.5 4B или 9B для многократного использования инструментов, или же более эффективны подходы на основе только RL. В посте также ищется руководство по проектированию вознаграждения и обработке параллельного выполнения инструментов в рабочих процессах агентов.

arxiv arXiv cs.CL · 2 д назад

Групповая графовая оптимизация политики для долгосрочной агентной RL

Групповая графовая оптимизация политики (G2PO) вводит графовый подход для улучшения долгосрочной агентной реверсной обучения, преобразуя взаимодействия в траектории в графы состояний-переходов. Она позволяет осуществлять групповую агрегацию оценки состояния и вычисление преимуществ на основе рёбер, улучшая присвоение кредитов и снижая дисперсию, и достигает улучшения показателя успешности до 22,2% по сравнению с GRPO на бенчмарках WebShop, ALFWorld и AppWorld.

arxiv arXiv cs.CL · 2 д назад

PhoneBuddy: Обучение открытых моделей для агентного использования телефона

PhoneBuddy объединяет реальные и имитационные среды приложений для обучения открытых моделей для использования телефона. Он повышает показатели успешного выполнения задач с 36,67% до 45,33% на реальных телефонах и с 60,3% до 83,2% на AndroidWorld, что показывает, что обучение в имитационной среде дополняет, но не заменяет обучение в реальных приложениях на основе релей-обучения.

arxiv arXiv cs.CL · 2 д назад

Саморазвитие агентов, использующих инструменты, через обучение предпочтений в точках разрыва

ToolGraph повышает эффективность агентов, использующих инструменты в многоходовых сессиях, интегрируя схему топологии, веса переходов и контроль, учитывающий историю. Обучение с DPO на 161 паре предпочтений в точках разрыва улучшает производительность: ToolGraph+DPO достигает роста награды на 16,8% по сравнению с базовой версией, особенно в задачах авиационного и розничного сектора, где появление положительных наград выступает ключевым диагностическим сигналом.

arxiv arXiv cs.CL · 2 д назад

AFTER оценивает память о процедурах в агентах на основе ЛЛМ

AFTER представляет бенчмарк из 382 задач предприятий по шести ролям и 22 навыкам для оценки передачи навыков между задачами, ролями и моделями. Результаты показывают, что память о процедурах повышает производительность на 3,7–6,7 баллов за каждую итерацию и достигает точности 73,1% между моделями, при этом некоторые навыки обобщаются широко, а другие специализируются на рабочих процессах конкретных ролей.

lab Hugging Face Blog · 2 д назад

Создание реальных агентных приложений с CUGA: 24 рабочих примера

CUGA вводит легкий интерфейс, позволяющий разработчикам создавать реальные агентные приложения. В нем содержится 24 рабочих примера, демонстрирующих практическое применение в различных сценариях использования.

arxiv arXiv cs.CL · 2 д назад

AgentCIBench оценивает риски приватности в агентах, использующих компьютер

AgentCIBench представляет бенчмарк для оценки рисков приватности в агентах, использующих компьютер. Он выявляет три ключевых режима сбоев — визуальная совместная локация, избыточное раскрытие при неясных задачах и несоответствие получателя — и показывает, что 11 из 15 оцененных агентов раскрывают персональные данные в более чем 50% сценариев, при среднем уровне утечки 67,9%.