AI agents
arxiv arXiv cs.LG · 1 д назад

Фреймворк LDT-FRL для кибер-устойчивых IoMT

Фреймворк LDT-FRL вводит систему защиты с сохранением конфиденциальности для устройств IoMT, объединяя временной внимательный механизм, лёгкие цифровые двойники и федеративное обучение с подкреплением. Он достигает точности 99,66% и 99,95% на тестах CICDDoS 2019 и TON-IoT, с идеальной F1 на классе MITM, сходится на 81% быстрее, чем ранее известные методы, и обеспечивает интерпретируемость решений защиты через SHAP и Grad-CAM.

arxiv arXiv cs.LG · 1 д назад

ASCII Art позволяет текстовым LLM контролировать системы VLA

Текстовый большой языковой модель может быть адаптирован к контроллеру Vision--Language--Action с использованием ASCII-рендеренных визуальных наблюдений. Этот подход позволяет LLM интерпретировать визуальные состояния через текст, что позволяет им следовать инструкциям на естественном языке и генерировать исполняемые действия как в симуляции, так и на физических манипуляторах.

arxiv arXiv cs.LG · 1 д назад

Разделение декларативных и процедурных знаний в моделях визуально-языковых-действий

w$^{2}$VLA вводит модульный подход, который разделяет декларативные и процедурные знания в моделях визуально-языковых-действий. Структурирование потока информации позволяет обеспечить надежное копирование поведения и беспрецедентную передачу навыков без обучения на незнакомых и несхожих объектах.

media Hugging Face Forums · 1 д назад

Я создал сервер MCP на Go для ИИ-агентов - 200 строковый тьюториал

200-строчный тьюториал на Go демонстрирует создание лёгкого сервера протокола контекста модели, используя параллелизм и простоту языка Go. Сервер позволяет ИИ-агентам, таким как Claude, получать структурированные данные и приложения на Go, что потенциально делает их в 10 раз более полезными.

media r/LocalLLaMA · 1 д назад

Репозиторий GitHub: Qwen-AgentWorld для языковых мировых моделей

Qwen-AgentWorld — это репозиторий на GitHub, представляющий языковые мировые модели, предназначенные для обобщённых агентов. Проект направлен на то, чтобы обеспечить агентам более широкое и реалистичное понимание мира за счёт языковых моделей.

media r/LocalLLaMA · 1 д назад

Qwen выпустил MoE на 35 миллиардов параметров для имитации среды агента

Qwen представил модель Qwen-AgentWorld-35B-A3B, MoE на 35 миллиардов параметров, при этом у неё около 3 миллиардов активных параметров на токен. Модель обучена на имитации ответов от MCP, терминала, программирования, Android, веб-интерфейсов и графических интерфейсов операционных систем путем предсказания следующих наблюдений после действий агента, что позволяет эффективно обучать агентов и имитировать среду без выполнения реальных инструментов.

arxiv arXiv cs.CL · 2 д назад

Готовы ли мы к агентно-ориентированной системе памяти?

Новое исследование разбивает память агента на четыре основных модуля и оценивает 12 систем по пяти бенчмаркам. Оно показывает, что ни одна архитектура не доминирует, производительность зависит от соответствия с узкими местами в задачах, и выявляет, что локальная поддержка более экономична, чем глобальная перестройка.

arxiv arXiv cs.CL · 2 д назад

Рынки микро-транзакций для проверенной информации о продуктах в агентной электронной коммерции

Агенты в электронной коммерции сталкиваются с дефицитом надежной информации о продуктах, а не с проблемой соответствия продуктов. Предлагаемая модель микро-транзакций позволяет агентам платить дробные центы за доступ к проверенным данным, таким как истории обслуживания и отчеты о тестах, с определением цен и доверия через репутацию. Эта система приоритизирует реальную продукт-качество и получение информации в реальном времени, а не гладкость чат-ботов.

arxiv arXiv cs.CL · 2 д назад

SHERLOC: структурированная локализация диагностики для агентов восстановления кода

SHERLOC представляет тренировку-бесплатную систему, которая объединяет логический LLM с компактными инструментами репозитория и самореконструкцией. Она достигает наилучшей точности и полноты локализации на SWE-Bench, повышая показатель восстановления агентов на 5,95 процентных пунктов, одновременно снижая использование локализации и общего количества токенов на 36,7% и 23,1% соответственно.

arxiv arXiv cs.CL · 2 д назад

Metis: Связывание памяти текста и кода для самоэволюционных агентов

Metis вводит иерархическую двойную память, сочетающую память текста и память кода, чтобы улучшить самоэволюционные агенты. Она организует опыт в виде планов выполнения, фактов и ошибок, и кристаллизует повторно используемые планы в проверенные инструменты только при обосновании. На AppWorld Metis достигает на 20,6% большей точности выполнения задач и на 22,8% меньших затрат на выполнение по сравнению с ReAct, при лучшем общем балансе по точности, эффективности и затратам памяти.

arxiv arXiv cs.CL · 2 д назад

MedBench v5: Динамический бенчмарк для клинической ИИ

MedBench v5 представляет динамический, процесс-ориентированный бенчмарк для клинических модальных моделей, включающий клиническую когнитивную реактивность и атомарные навыки по 63 задачам. В нем предусмотрены стресс-факторы для анализа деградации и мониторинга распространения галлюцинаций через пять узлов рассуждения, что показывает, что высокая производительность по задачам не гарантирует стабильность процесса.

arxiv arXiv cs.CL · 2 д назад

Agon: автономная система исследований через экономику запросов

Agon — это автономная система исследований, которая использует экономику запросов для проверки проверяемых утверждений в рабочих процессах, оставляя оценку людям-исследователям. Система работает в течение 444 итераций с минимальным количеством запросов и без кода, написанного человеком, и выявляет топологию сбоев по степени серьёзности, возможность исправления, видимости и месту расположения функциональности. Система демонстрирует масштабируемость и продвигает исследование к парадигме, в которой машины управляют масштабом, а люди — руководят оценкой.

arxiv arXiv cs.CL · 2 д назад

Диалог к открытию: эlicitация предпочтений с учетом атрибутов

Диалог к открытию (D2D) — это атрибутно-ориентированный фреймворк, который улучшает поисковые запросы в продуктах за счёт динамического направления взаимодействия пользователя. Он адаптирует приоритеты запросов и время рекомендаций, достигая на 22,2–29,9% более высокой точности нахождения целей, на 6,6–16,1% меньшего отказа и на 27,5% короче диалога по сравнению с существующими методами, при этом пользовательские исследования подтверждают улучшение удовлетворённости и эффективности.

arxiv arXiv cs.CL · 2 д назад

Кадр EDV обеспечивает надежное обучение опыта для агентных систем

Кадр EDV вводит парадигму Execute-Distill-Verify для преодоления тупика самоподтверждения в агентах на основе больших языковых моделей. Используя несколько агентов для изучения задач, третий агент для извлечения опыта и этап проверки на основе консенсуса, EDV гарантирует, что только точные опыты сохраняются в памяти. Оценка на tau2-bench, Mind2Web и MMTB показывает, что EDV превосходит сильные базовые модели, что демонстрирует его эффективность в обеспечении устойчивого саморазвития агентов.

arxiv arXiv cs.CL · 2 д назад

AGORA: Бенчмарк для агентного анализа документов в рабочей среде

Agora представляет бенчмарк с 362 вопросами и 9664 официальных рабочих документов, в сумме составляющих 372 млн токенов, превышающих контекстную длину любого модели. Он оценивает способность агентов осознанно изучать документы, устранять противоречия и проводить рассуждения в разных областях, показывая, что даже самые продвинутые модели достигают лишь 59,4% точности.

arxiv arXiv cs.CL · 2 д назад

NatureBench оценивает способность ИИ-агентов к кодированию к научным открытиям

NatureBench представляет бенчмарк из 90 задач, взятых из статей из журналов Nature, для оценки способности ИИ-агентов к достижению научных открытий. При протоколе, запрещающем использование веб-поиска, лучший модель превосходит предыдущие достижения только на 17,8% задач. Агенты в основном успешно решают задачи, переводя научные проблемы в задачи надзирания, а не через оригинальное научное изобретение.

arxiv arXiv cs.CL · 2 д назад

MEMPROBE: Бенчмарк для восстановления долгосрочной памяти в агентах

MEMPROBE — это бенчмарк, который оценивает долгосрочную память в ИИ-агентах путем восстановления скрытого состояния пользователя из памяти агента после взаимодействия. Он проверяет 5 систем памяти в 50 имитированных пользователях с каждой из 31 измерения, и показывает, что выполнение задачи высокое даже для агентов без памяти, в то время как восстановление памяти остается умеренным и снижается при использовании метода top-k. MEMPROBE обеспечивает прямую и аудитируемую оценку сохранения памяти и предлагает восстановление как ключевую цель для будущего развития агентов.

arxiv arXiv cs.CL · 2 д назад

Qwen-AgentWorld: Языковые модели мира для общих агентов

Qwen-AgentWorld-35B-A3B и Qwen-AgentWorld-397B-A17B — это первые языковые модели мира, которые имитируют агентские среды в семи областях с помощью длинной цепи мышления. Обученные с помощью трехэтапной схемы — CPT, SFT и RL — эти модели превосходят существующие передовые модели на AgentWorldBench, критерии, полученные из реальных взаимодействий пяти моделей на девяти установленных задачах.

arxiv arXiv cs.LG · 2 д назад

Сжатие трансформеров в рекуррентные трансформеры для эффективного использования памяти

Новая методика сжатия передает стратегию сжатия наблюдений полных историй трансформеров в рекуррентные модели. Обучая учителя модели сжимать истории наблюдений в фиксированные размеры, метод синхронизирует память ученика с сжатием учителя. Это позволяет рекуррентным трансформерам достигать производительности, близкой к полному использованию истории наблюдений, при линейной сложности, что делает их применимыми для задач робототехники с длинными горизонтами.