AI agents
github OpenAI Agents SDK · 6 д назад

Примечания по выпуску v0.17.6

В выпуске v0.17.6 добавлены предварительные правила ввода инструмента и SDK-только данные для вывода инструмента. Также введена строгая совместимость JSON для вывода инструмента и подавляются предупреждения о лишних пробелах в названиях инструментов. @siddiksawani сделал свой первый вклад в этот выпуск.

arxiv arXiv cs.AI · 6 д назад

DataMagic превращает таблицы данных в интерактивные видео с анализом данных

DataMagic преобразует сырые таблицы данных и естественные запросы на языке природных языков в видео с аналитическими данными. Система использует DVSpec для обеспечения точности данных, связывая визуальные элементы с полями данных через семантические ссылки, и применяет многопрофильную архитектуру для генерации и координации согласованных сцен видео. Система поддерживает интерактивное исследование и вопросы по данным на основе происхождения, позволяя пользователям взаимодействовать с данными за пределами статических представлений.

arxiv arXiv cs.AI · 6 д назад

NRT-Bench: Многоходовое красное тестирование агентов ЛЛМ в критически важных системах

NRT-Bench представляет бенчмарк для многоходового красного тестирования агентов ЛЛМ, работающих в симулированной атомной электростанции. В четырех передовых моделях операторов в 8,7% до 12,1% атак приводят к потере критической функции безопасности, при этом уязвимости в основном не пересекаются между моделями. Эффективность защит значительно варьируется в зависимости от модели, что демонстрирует сильную зависимость от модели.

arxiv arXiv cs.AI · 6 д назад

Защита от автоматизированных атак на агентные ИИ

Системы агентных ИИ сталкиваются с растущими угрозами со стороны автоматизированных атак, основанных на моделях. Новая стратегия защиты — Контекстная дезориентация через прогрессивное вовлечение (CMPE) — снижает успех атакантов до двух порядков и почти полностью устраняет подтвержденные успехи атак в тестах на стандартах.

arxiv arXiv cs.AI · 6 д назад

UltraQuant: 4-бит кэширование KV для агентов с большим контекстом

UltraQuant обеспечивает 4-битное кэширование KV для агентов с большим контекстом, снижая время до первого токена на 3,47 раза в поздних раундах и увеличивая пропускную способность вывода на 1,63 раза по сравнению с базовым вариантом FP8 KV. Для достижения этого используется FP8 запросы, FP4 тензоры KV, масштабы группы UE8M0, а также встроенная операция scaled-MFMA на GPU AMD CDNA4, с оптимизациями для ядер декодирования-внимания и надежными выборами, такими как асимметричное обращение K/V и вращение по Walsh-Hadamard.

arxiv arXiv cs.AI · 6 д назад

Оптимальный порядок в рамке многоагентных систем

Новая рамка анализирует многоагентные системы, моделируя влияние агентов и функции их реакции. Она выводит макроскопические свойства, такие как мощность, энтропия и порядок, и определяет оптимальный уровень синхронизации, который балансирует производительность, стабильность и адаптивность. Исследование показывает, что порядок и свойства системы зависят от задачи и контекста.

arxiv arXiv cs.AI · 6 д назад

Передача предвзятости оценщиков в системах мультиагентных языковых моделей

Contagion Networks представляет рамку для измерения того, как предвзятости оценщиков распространяются среди агентов языковых моделей. В эксперименте с тремя агентами предвзятости распространялись стабильно с коэффициентами заражения от 0,157 до 0,352, и агенты однородных моделей показали значительно меньшую передачу по сравнению с кросс-модельными настройками. Увеличение размера комитета оценщиков от k=1 до k=3 снизило эффективную передачу на 72,4%.

arxiv arXiv cs.AI · 6 д назад

Эффективная и надежная вероятностная проверка для агентов ИИ

Новый фреймворк обеспечивает безопасную вероятностную проверку политик для агентов ИИ в неопределенных средах. Он использует распределенно устойчивую оптимизацию для вычисления строгих верхних оценок вероятности нарушения политик без предположения независимости предикатов. Метод превосходит предыдущие подходы на бенчмарках для агентов-конечных и вызова инструментов, улучшая баланс между безопасностью и полезностью.

arxiv arXiv cs.AI · 6 д назад

Совершенно самостоятельный брокер исполнения для агентного управления с сертифицированными сертификатами

Совершенно самостоятельный брокер исполнения (SEB) вводит границу выполнения в реальном времени, которая проверяет и исполняет сертифицированные полномочия в системах на основе агентов. Он проверяет контракты о выполнении, проверяет сроки действия и обеспечивает соблюдение политик до вызова API инфраструктуры, предоставляя кратковременную, аудитируемую и отзываемую возможность выполнения. Прототип был оценен на AWS и Kubernetes, измеряя задержку, распространение отзыва и устойчивость к введению сбоев.

arxiv arXiv cs.AI · 6 д назад

LedgerAgent: структурированный статус для агентов вызова инструментов, соблюдающих политику

LedgerAgent вводит структурированный журнал для поддержания состояний задач отдельно в агентах вызова инструментов. Он превращает состояния в промпты и обеспечивает соблюдение политических ограничений до выполнения инструмента, что снижает нарушения политики и улучшает производительность в областях обслуживания клиентов.

arxiv arXiv cs.LG · 6 д назад

Разнообразие стиля превосходит разнообразие тем в синтезированных данных без аннотации

Новая система генерирует синтезированные диалоги без использования аннотированных данных от человека, используя только определения намерений. В ней включены атрибуты тем и стиля, а также модели пост-обработки стиля Univ и Exam, и процесс фильтрации с помощью языковой модели как судьи. Результаты показывают достижение до 93,3% эффективности по сравнению с аннотированными данными человека, что подтверждает, что разнообразие стиля является более важным, чем разнообразие тем, для полезности данных.

arxiv arXiv cs.LG · 6 д назад

Агентный символический поиск для характеристики решений уравнений в частных производных

ASYS предлагает рамку с предварительным руководством, которая использует математическую теорию и эволюционный поиск для генерации интерпретируемых символических форм решений уравнений в частных производных. Оно создает аналитические представления для сложных задач, таких как динамика Альлена-Кэна и взрыв в модели Келлера-Сегеля, предлагая новые пути для математического анализа за пределами традиционных методов.

arxiv arXiv cs.LG · 6 д назад

UltraQuant: 4-битное кэширование KV для агентов с большим контекстом

UltraQuant представляет метод 4-битного кэширования KV, разработанный специально для рабочих нагрузок агентов с большим контекстом. Он обеспечивает сокращение времени до первого токена на поздних этапах на 3,47 раза и увеличение пропускной способности вывода на 1,63 раза по сравнению с кэшированием KV в формате FP8, используя запросы в формате FP8, тензоры KV в формате FP4 и поддержку native AMD CDNA4 scaled-MFMA.

arxiv arXiv cs.LG · 6 д назад

Сбор межгруппового преимущества для самоэволюции агентов, основанных на памяти

В этой статье представлено Межгрупповое накопление преимуществ (MAA), архитектуру постобработки, которая решает проблему несогласованности между группами в самоэволюции агентов, основанных на памяти. MAA формализует сопоставимость и согласованность как структурные условия, использует дифференциальные сигналы и экспоненциальное скользящее среднее для накопления знаковых доказательств на операции, и обеспечивает отслеживаемость за счёт слияния семантических идентификаторов. В 14 из 16 случаев MAA превосходит базовые решения на уровне групп и снижает потребление токенов на 75%.

arxiv arXiv cs.LG · 6 д назад

Передача предвзятости в системах мультиагентных языковых моделей

Contagion Networks представляет рамку для измерения того, как предвзятости оценщиков распространяются среди агентов языковых моделей. В эксперименте с тремя агентами предвзятости распространяются с коэффициентами от 0,157 до 0,352, и агенты однородных моделей демонстрируют значительно меньшую передачу по сравнению с кросс-модельными конфигурациями. Увеличение размера комитета оценщиков от k=1 до k=3 снижает эффективную передачу на 72,4%.

arxiv arXiv cs.LG · 6 д назад

Метод probe-and-refine улучшает производительность код-агента

Новый метод, называемый probe-and-refine tuning, использует синтетические пробы исправления ошибок для итеративного улучшения файлов руководства репозитория с помощью одноразовых вызовов LLM, без циклов агентов или использования инструментов. На SWE-bench Verified он достигает среднего коэффициента разрешения 33,0% — на 14,5 процентных пункта выше начального статического базового знания — что свидетельствует о расширении охвата, а не точности исправлений. Метод позволяет агентам эффективно использовать большие бюджеты шагов, и производительность остается стабильной при различных моделях, при наличии достаточного диагностического вывода.

arxiv arXiv cs.LG · 6 д назад

Совершенно самостоятельный исполнительный брокер для агентного контроля с сертификатами

Совершенно самостоятельный исполнительный брокер (SEB) вводит границу выполнения в режиме работы, которая проверяет и выполняет сертифицированную власть в системах агентов. Он обеспечивает изоляцию производственной власти изменения от неопределенных процессов принятия решений, проверяя контракты выполнения, сроки действия и состояние отмены перед вызовом API инфраструктуры. Прототип демонстрирует безопасное и аудитируемое выполнение на AWS и Kubernetes с измеримыми задержками и устойчивостью к сбоям.

arxiv arXiv cs.LG · 6 д назад

Капсулы состояния выполнения для низкозадержанного выполнения ИИ на устройстве

Капсулы состояния выполнения позволяют производить контрольные точки и восстановление полного состояния выполнения графа, включая состояния КВ, рекуррентные и конволюционные, что обеспечивает низкую задержку и эффективное выполнение небольших пакетов на устройстве для ИИ. На RTX 5090 и Jetson AGX Thor восстановление капсулы обеспечивает точность на уровне байтов и идентичности токенов, с операциями на GPU менее миллисекунды и ускорением TTFT до 27x при 16k токенах, что демонстрирует значительное снижение задержки в интерактивных рабочих процессах ИИ.

arxiv arXiv cs.CL · 6 д назад

H-RePlan: иерархическое восстановление для систем агентов на разных устройствах

H-RePlan вводит иерархическую систему перепланирования, которая разделяет восстановление стратегии на уровне устройства и перепланирование на глобальном уровне. Оно превосходит существующие базовые варианты, достигая более высокого уровня завершения и соблюдения инструкций, при снижении затрат на токены, за счёт восстановления с учётом области в системах агентов на нескольких устройствах.