AI agents — korshunov.ai — новости ML

AI agents Страница 1 / 20

Прототип мобильного агента Aiden

Aiden — это физическое устройство ИИ-агента, которое контролирует экран телефона через HDMI и управляет им через USB HID, позволяя автоматизировать приложения без jailbreak или установленного программного обеспечения. Оно поддерживает использование собственных моделей LLM, работает без необходимости в backend-инфраструктуре или сборе данных, и выпущено под лицензией AGPL как открытая разработка платформы.

arxiv arXiv cs.AI · 19 ч назад

Заземленное масштабирование: детерминизм как основное ограничение в агентной ИИ

Производительность агентной ИИ экспоненциально снижается в непредсказуемых средах, при этом успешность за k шагов уменьшается как δ^k, когда детерминизм на каждом шаге δ < 1. В статье представлены рамки, связывающие детерминизм среды с успешностью задачи, верифицируемостью и эволюцией навыков, предложены Индекс уверенности поставки и пятиуровневая модель зрелости детерминизма. В статье критически переосмысляются существующие взгляды, выделяя детерминизм как ограничивающий фактор в областях вычислений, данных, воплощения и синхронизации.

arxiv arXiv cs.AI · 20 ч назад

Gazer: обнаружение ошибок семантики без обучения для автокорректирующих визуальных моделей

Gazer представляет рамку без обучения, которая использует обратную связь крупных моделей языка с несколькими модальностями для исправления ошибок семантики в реальном времени во время генерации автокорректирующими визуальными моделями. Интегрируя этапы отражательной диагностики и исправления семантики, Gazer повышает точность составления и выравнивание семантики между несколькими моделями без дополнительного обучения.

arxiv arXiv cs.AI · 20 ч назад

MacAgentBench запускает бенчмарк искусственного интеллекта для агентов macOS

MacAgentBench представляет всесторонний бенчмарк, включающий 676 задач по 25 приложениям, 60% из которых включают взаимодействие как с графическим интерфейсом, так и с командной строкой. Бенчмарк использует детерминированный правило-ориентированный подход к оценке и оценивает результаты с использованием мелких контрольных точек, показывая, что Claude Opus 4.6 на OpenClaw достигает 73,7% Pass@1, что в основном обусловлено его библиотекой навыков, а не архитектурой фреймворка.

media r/LocalLLaMA · 20 ч назад

Выпущен модель Nex-N2-Mini-Ultra-Uncensored-Heretic

Модель Nex-N2-Mini-Ultra-Uncensored-Heretic теперь доступна, с агентным мышлением, 5/100 отказов и KLD 0,0020. Модель выпущена в форматах Safetensors и GGUF и доступна через Hugging Face. Создатель отмечает, что был выбран Heretic 1.2.0 вместо 1.4.0 из-за лучшей производительности при избежании высокого KLD и сохранении низких порогов отказов.

arxiv arXiv cs.AI · 22 ч назад

PaperClaw: автономные исследования с вовлечением человека на этапе уточнения

PaperClaw — это многоагентная система, которая автономно проводит исследования от выбора направления до публикации статьи. Она использует проверенный итеративный цикл предложение-тест-отражение, основанный на реальных ссылках и выполнимых результатах, и обеспечивает вовлечение человека на любом этапе. Оценка показывает, что система создаёт сильные статьи как автономно, так и при участии человека.

arxiv arXiv cs.LG · 23 ч назад

DataClaw0: Агентная настройка мультимодальных данных из исходных потоков

DataClaw0 вводит агентную парадигму для активного уточнения исходных мультимодальных данных с целью соответствия намерениям пользователя и последующих задач. Оно использует двухэтапную схему, основанную на фактических опорах, для создания масштабного набора данных в пяти областях и объединяет обучение с помощью надзора и GRPO для достижения сильной синхронизации с сложными задачами уточнения. Оценка на генерации видео, VQA и навигации в интерфейсе, DataClaw0 обеспечивает высокую плотность информационного содержания в настраиваемых данных, что позволяет эффективно адаптировать модели при минимальном объеме обучающих данных.

arxiv arXiv cs.LG · 1 д назад

Нейронный кодек действий для моделей визуально-языковых-действий

NAC, архитектура, вдохновленная нейронным аудиокодеком, сжимает траектории действий робота как многоканальные одномерные сигналы с использованием многоуровневой резидуальной векторной квантовой. Заменяя потери мел-спектрограмм на восстановление в временной области и не-мел спектральной, NAC достигает высокой точности кодирования действий при минимальных изменениях архитектуры, превосходя существующие токенизаторы по ошибке восстановления и показателям успеха на реальных задачах манипулирования.

arxiv arXiv cs.LG · 1 д назад

VLA-FAIL: Легкая система обнаружения сбоев для моделей визуально-языковых-действий

VLA-FAIL представляет легкую систему обнаружения сбоев для моделей визуально-языковых-действий, использующую расстояние Махаланобиса на последнем слое и согласованность блоков действий, не требуя данных о сбоях или дорогостоящего выбора действий. Система объединяет эти детекторы для достижения надежного и раннего обнаружения сбоев на различных задачах, превосходя базовые методы как по точности, так и по эффективности.

arxiv arXiv cs.LG · 1 д назад

Фреймворк LDT-FRL для кибер-устойчивых IoMT

Фреймворк LDT-FRL вводит систему защиты с сохранением конфиденциальности для устройств IoMT, объединяя временной внимательный механизм, лёгкие цифровые двойники и федеративное обучение с подкреплением. Он достигает точности 99,66% и 99,95% на тестах CICDDoS 2019 и TON-IoT, с идеальной F1 на классе MITM, сходится на 81% быстрее, чем ранее известные методы, и обеспечивает интерпретируемость решений защиты через SHAP и Grad-CAM.

arxiv arXiv cs.LG · 1 д назад

ASCII Art позволяет текстовым LLM контролировать системы VLA

Текстовый большой языковой модель может быть адаптирован к контроллеру Vision--Language--Action с использованием ASCII-рендеренных визуальных наблюдений. Этот подход позволяет LLM интерпретировать визуальные состояния через текст, что позволяет им следовать инструкциям на естественном языке и генерировать исполняемые действия как в симуляции, так и на физических манипуляторах.

arxiv arXiv cs.LG · 1 д назад

Разделение декларативных и процедурных знаний в моделях визуально-языковых-действий

w$^{2}$VLA вводит модульный подход, который разделяет декларативные и процедурные знания в моделях визуально-языковых-действий. Структурирование потока информации позволяет обеспечить надежное копирование поведения и беспрецедентную передачу навыков без обучения на незнакомых и несхожих объектах.

media Hugging Face Forums · 1 д назад

Я создал сервер MCP на Go для ИИ-агентов - 200 строковый тьюториал

200-строчный тьюториал на Go демонстрирует создание лёгкого сервера протокола контекста модели, используя параллелизм и простоту языка Go. Сервер позволяет ИИ-агентам, таким как Claude, получать структурированные данные и приложения на Go, что потенциально делает их в 10 раз более полезными.

media r/LocalLLaMA · 1 д назад

Qwen представил модель Qwen-AgentWorld-397B-A17B

Qwen объявил о выпуске нового крупного языкового модели Qwen-AgentWorld-397B-A17B. Модель упоминается на Hugging Face и в официальном блоге Qwen, что указывает на её публичный выпуск и доступность для использования.

media r/LocalLLaMA · 1 д назад

Репозиторий GitHub: Qwen-AgentWorld для языковых мировых моделей

Qwen-AgentWorld — это репозиторий на GitHub, представляющий языковые мировые модели, предназначенные для обобщённых агентов. Проект направлен на то, чтобы обеспечить агентам более широкое и реалистичное понимание мира за счёт языковых моделей.

media r/LocalLLaMA · 1 д назад

Qwen выпустил MoE на 35 миллиардов параметров для имитации среды агента

Qwen представил модель Qwen-AgentWorld-35B-A3B, MoE на 35 миллиардов параметров, при этом у неё около 3 миллиардов активных параметров на токен. Модель обучена на имитации ответов от MCP, терминала, программирования, Android, веб-интерфейсов и графических интерфейсов операционных систем путем предсказания следующих наблюдений после действий агента, что позволяет эффективно обучать агентов и имитировать среду без выполнения реальных инструментов.

arxiv arXiv cs.CL · 1 д назад

Готовы ли мы к агентно-ориентированной системе памяти?

Новое исследование разбивает память агента на четыре основных модуля и оценивает 12 систем по пяти бенчмаркам. Оно показывает, что ни одна архитектура не доминирует, производительность зависит от соответствия с узкими местами в задачах, и выявляет, что локальная поддержка более экономична, чем глобальная перестройка.

arxiv arXiv cs.CL · 1 д назад

Рынки микро-транзакций для проверенной информации о продуктах в агентной электронной коммерции

Агенты в электронной коммерции сталкиваются с дефицитом надежной информации о продуктах, а не с проблемой соответствия продуктов. Предлагаемая модель микро-транзакций позволяет агентам платить дробные центы за доступ к проверенным данным, таким как истории обслуживания и отчеты о тестах, с определением цен и доверия через репутацию. Эта система приоритизирует реальную продукт-качество и получение информации в реальном времени, а не гладкость чат-ботов.

arxiv arXiv cs.CL · 1 д назад

SHERLOC: структурированная локализация диагностики для агентов восстановления кода

SHERLOC представляет тренировку-бесплатную систему, которая объединяет логический LLM с компактными инструментами репозитория и самореконструкцией. Она достигает наилучшей точности и полноты локализации на SWE-Bench, повышая показатель восстановления агентов на 5,95 процентных пунктов, одновременно снижая использование локализации и общего количества токенов на 36,7% и 23,1% соответственно.

arxiv arXiv cs.CL · 1 д назад

Metis: Связывание памяти текста и кода для самоэволюционных агентов

Metis вводит иерархическую двойную память, сочетающую память текста и память кода, чтобы улучшить самоэволюционные агенты. Она организует опыт в виде планов выполнения, фактов и ошибок, и кристаллизует повторно используемые планы в проверенные инструменты только при обосновании. На AppWorld Metis достигает на 20,6% большей точности выполнения задач и на 22,8% меньших затрат на выполнение по сравнению с ReAct, при лучшем общем балансе по точности, эффективности и затратам памяти.