AI agents
arxiv arXiv cs.AI · 2 д назад

ARCO: адаптивный рубрик с когенерацией для агентов на основе многошаговых ЛЛМ

ARCO представляет рамку рубрики, которая позволяет осуществлять присвоение кредитов на уровне шагов для агентов на основе многошаговых ЛЛМ. Он одновременно обновляет общую модель с головками генерации и оценки, позволяя содержанию рубрики и функции оценки когенерироваться через данные на-политики, что улучшает производительность и интерпретируемость на различных тестах.

arxiv arXiv cs.AI · 2 д назад

Модель социального мира для долгосрочной социальной интеллектуальности

Модель социального мира разбивает социальные взаимодействия на пять измерений для обеспечения обучения в замкнутом цикле. Она позволяет открытым источникам моделей стабильно улучшаться и сохранять социальные способности, превосходя базовые модели и достигая ключевых показателей, сравнимых с закрытым Gemini 3 Flash, без потери при изменении уровня сложности.

arxiv arXiv cs.AI · 2 д назад

DataClaw0: Агентная настройка мультимодальных данных из исходных потоков

DataClaw0 вводит агентную парадигму для активного уточнения мультимодальных данных с целью соответствия пользовательским и последующим намерениям. Оно использует двухэтапную схему с фактами-анкерами для генерации масштабного набора данных в пяти областях и достигает сильной синхронизации с помощью надзора и GRPO. Оценка на генерации видео, VQA и навигации в интерфейсе, DataClaw0 создает данные высокой информационной плотности, что позволяет эффективно адаптировать модели при минимальном объеме обучающих данных.

arxiv arXiv cs.AI · 2 д назад

Оверсайт LLM-агента должен перейти от калибровки к контролю, зависящему от действий

Текущий оверсайт LLM-агентов основан на скалярных оценках рисков, однако это не позволяет определить, улучшает ли вмешательство результаты. В статье вводится метрика "преимущество вмешательства" как ключевого показателя, демонстрируя, что контроль, зависящий от действий, превосходит скалярное распределение на всех бенчмарках, с значительным снижением разрыва в интерактивных режимах. Калибровка сама по себе не устраняет фундаментальную несоответствие в производительности контроля.

arxiv arXiv cs.AI · 2 д назад

SwarmX: агентское планирование для систем с низкой задержкой

SwarmX вводит нейронные предикторы для обеспечения планирования с учетом запросов в агентных ИИ-системах. Он снижает хвостовую задержку на 61,5% и обеспечивает до 2 раз большую пропускную способность по сравнению с производственными планировщиками при одинаковых уровнях сервиса.

arxiv arXiv cs.AI · 2 д назад

Надежная обратная связь может нанести вред агентам с использованием инструментов

Исследования показывают, что ложная обратная связь может привести к тому, что агенты на основе языковых моделей будут выполнять задачи хуже, чем при отсутствии обратной связи вообще. На платформе HotpotQA, Qwen2.5-7B снижается с 44,8 до 4,7 F1 при случайной сортировке результатов, несмотря на чистые инструменты. Эти результаты указывают на то, что приросты, связанные с инструментами, могут быть переоценены, и контрольные испытания без обратной связи являются необходимыми для корректной оценки.

arxiv arXiv cs.AI · 2 д назад

AutoRAS: обучение устойчивых агентских систем с примитивными представлениями

AutoRAS предлагает рамку для автоматического проектирования устойчивых агентских систем путем генерации последовательностей симболов, которые кодируют как структурную связность, так и поведенческие действия. Она оптимизирует эти последовательности с помощью сигналов безопасности, полученных при выполнении и на основе потоковых целей, обеспечивая превосходную производительность как в нормальных, так и в враждебных условиях, при минимальном снижении при атаках.

arxiv arXiv cs.AI · 2 д назад

CORTIS: текстовое адаптация моделей речи

CORTIS позволяет голосовым агентам, ориентированным на задачи, генерировать структурированные речевые выходы путем тонкой настройки моделей речи с использованием только текстовой задачной поддержки. Он превосходит архитектуры ASR-LLM при ухудшении акустических характеристик, особенно в сохранении высокого уровня семантики задач, не требуя парных аннотаций речи и целей во время обучения.

arxiv arXiv cs.AI · 2 д назад

Разделение декларативных и процедурных знаний в моделях визуально-языковых-действий

w$^{2}$VLA вводит модульную модель визуально-языковых-действий, которая разделяет декларативные и процедурные знания. Структурирование потока информации позволяет обеспечить надежное копирование поведения и нулевое переносимость навыков на новые, несхожие объекты.

arxiv arXiv cs.AI · 2 д назад

Проверка на этапе проектирования агентных ИИ-процессов

Новый подход проверяет агентные ИИ-процессы на этапе проектирования, моделируя их как композиции повторно используемых элементов. Он применяет двенадцать структурных правил для обеспечения совместимости, надёжно обнаруживая ошибки проектирования даже после структурных преобразований, таких как разбиение задач.

arxiv arXiv cs.AI · 2 д назад

Обнаружение ошибок в процедуре без обучения с использованием моделей видео-языка

Единая безобученная система ZeProM использует предобученную модель видео-языка для одновременного выполнения обнаружения ошибок в процедуре и временного разделения действий. Она достигает улучшения на 4,4 пункта по EDA и на 2,0 пункта по F1@.5 на задачах EgoPER, что соответствует или превосходит результаты обучающих методов без специфического обучения для задачи.

media r/LocalLLaMA · 2 д назад

MiniMax 2.7 работает на 47 ТГ 1200PP с 96 ГБ VRAM

MiniMax 2.7, модель с 47 терапараметрами, работает на системе с 96 ГБ VRAM и 192 ГБ DDR5 ОЗУ, используя плату MSI B840 и процессор 9900X. Модель функционирует как модель класса агента с сильным следованием инструкций и вызовом инструментов, поддерживаемая циклической обработкой с тремя агентами последовательности на основе процессора и плотной моделью 12B, которая отслеживает ошибки.

lab Claude Code Releases · 2 д назад

Примечания по выпуску Claude v2.1.187

Claude v2.1.187 вводит блокировку учетных данных сандбокса, ограничения моделей, настроенные организацией, поддержку клика мыши в полноэкранном режиме, а также исправления сбоев команд, зависаний инструментов и стабильности интерфейса. Обновления также улучшают обработку структурированных выходов, отслеживание глубины агента и управление плагинами, с улучшением совместимости с VSCode и терминалом.

media r/LocalLLaMA · 2 д назад

Агент Tmax-27B для малых видеокарт с обучением DPPO

Tmax-27B — это терминальный агент, основанный на Qwen3.6-27B, обученный с использованием DPPO (RL), достигающий 43% на Terminal Bench 2.0 и 69% на TB Lite. Для работы на потребительских видеокартах он квантируется с использованием калиброванных матриц важности GGUF моделей с 2 до 5 бит на вес, с встроенной головой MTP, обеспечивающей спекулятивное декодирование. Модель IQ2_XS размером 8,5 ГиБ достигает 70% в задачах агентного программирования, превосходя простую квантизацию и демонстрируя стабильность генерации инструментальных вызовов.

lab Anthropic News · 2 д назад

Введение Claude Tag для команд Slack

Claude Tag позволяет командам в Slack помечать @Claude для делегирования задач, с доступом к выбранным каналам, инструментам и кодовым базам. Он изучает контекст канала, работает асинхронно и принимает инициативу, активно обновляя пользователей о релевантной информации. Сегодня 65% кода продукта команды Anthropic создается внутренним Claude Tag, и он теперь доступен в бета-версии для клиентов Claude Enterprise и Team.

media r/LocalLLaMA · 2 д назад

Используемые рабочие процессы для длительных локальных моделей языковой обработки

Hayden разработал удерживающий механизм knot для управления длительными локальными задачами моделей языковой обработки. Он обеспечивает повторно используемые рабочие процессы с профилями агентов, мониторингом событий файловой системы и автоматическими триггерами, используя Pi.dev как стандартного агента.

media r/LocalLLaMA · 2 д назад

Лучшие локальные модели для рассуждений в агентной ИИ

Создатель EverFern спрашивает, какие локальные модели лучше всего подходят для агентных рабочих процессов и использования в браузере или на компьютере. Он отмечает, что интеллект модели редко является ограничивающим фактором, и что надежность и системы восстановления важнее, чем выбор модели.

media r/LocalLLaMA · 2 д назад

SFT или RL-первый для обучения агента Qwen 3.5 с использованием инструментов?

Пользователь спрашивает, рекомендуется ли все еще последовательное применение надзирательного мелкого настройки (SFT) за которым следует обучение с помощью реверсной связи (RL), для обучения агентов Qwen 3.5 4B или 9B для многократного использования инструментов, или же более эффективны подходы на основе только RL. В посте также ищется руководство по проектированию вознаграждения и обработке параллельного выполнения инструментов в рабочих процессах агентов.

arxiv arXiv cs.CL · 2 д назад

Групповая графовая оптимизация политики для долгосрочной агентной RL

Групповая графовая оптимизация политики (G2PO) вводит графовый подход для улучшения долгосрочной агентной реверсной обучения, преобразуя взаимодействия в траектории в графы состояний-переходов. Она позволяет осуществлять групповую агрегацию оценки состояния и вычисление преимуществ на основе рёбер, улучшая присвоение кредитов и снижая дисперсию, и достигает улучшения показателя успешности до 22,2% по сравнению с GRPO на бенчмарках WebShop, ALFWorld и AppWorld.

arxiv arXiv cs.CL · 2 д назад

PhoneBuddy: Обучение открытых моделей для агентного использования телефона

PhoneBuddy объединяет реальные и имитационные среды приложений для обучения открытых моделей для использования телефона. Он повышает показатели успешного выполнения задач с 36,67% до 45,33% на реальных телефонах и с 60,3% до 83,2% на AndroidWorld, что показывает, что обучение в имитационной среде дополняет, но не заменяет обучение в реальных приложениях на основе релей-обучения.