AI agents
lab Google DeepMind Blog · 23 ч назад

Геми 3.5 Флэш добавляет функцию использования компьютера

Google представил возможность использования компьютера в Геми 3.5 Флэш, что позволяет модели выполнять код и взаимодействовать с внешними инструментами. Эта функция позволяет пользователям запускать задачи по программированию и получать информацию в реальном времени через интегрированные вычислительные функции.

arxiv arXiv cs.AI · 1 д назад

MetaPS: адаптивный выбор стратегии для агентов рынка

MetaPS - это рамка, основанная на симуляции, которая позволяет агентам рынка адаптивно выбирать среди стратегий на основе состояния рынка. Она использует симулированные рынки для генерации обучающих данных в формате надзора, затем при инференсе выбирает стратегии для генерации исполняемых действий. Эксперименты показывают, что MetaPS превосходит фиксированные стратегии и агентов на основе языковых моделей, при этом компактные модели превосходят более сильные модели API по производительности.

arxiv arXiv cs.AI · 1 д назад

PlanBench-XL: Бенчмарк для планирования использования инструментов на длительных горизонтах

PlanBench-XL оценивает долгосрочное планирование в агентах на основе языковых моделей через 327 задач по розничной торговле, используя 1665 инструментов. В нем вводится механизм блокировки для имитации сбоев инструментов в реальном мире, что показывает, что агенты, такие как GPT-5.4, снижают свою точность с 51,90% до 11,36% при серьезных сбоях, подчеркивая уязвимости в восстановлении и обработке ошибок.

arxiv arXiv cs.AI · 1 д назад

Структурный индекс базы кода улучшает разрешение без дополнительной стоимости

Структурный индекс базы кода в агентах разработки повышает эффективность локализации и разрешения без увеличения стоимости на ячейку. Он превосходит базовые варианты agentic-grep по обоим показателям и обеспечивает меньшую стоимость за решённую задачу, особенно в нагрузках с изменениями нескольких файлов.

arxiv arXiv cs.AI · 1 д назад

Саморазвивающаяся когнитивная структура для встроенной научной интеллектуальности

В статье предлагается саморазвивающаяся когнитивная структура, использующая каскадную модель мира для обеспечения того, что встроенные системы непрерывно уточняют свои внутренние модели через взаимодействие. Она интегрирует каскадное моделирование, рассуждение на основе вмешательства и непрерывное уточнение, переосмысливая встроенное взаимодействие как эпистемический процесс для открытия причин и приобретения знаний. Структура поддерживает переход от предиктивной к эпистемической интеллектуальности, включая новый бенчмарк для оценки саморазвивающейся встроенной научной интеллектуальности.

arxiv arXiv cs.AI · 1 д назад

VADAOrchestra: нейросимволическая оркестрация адаптивных рабочих процессов

VADAOrchestra представляет нейросимволическую архитектуру, сочетающую оркестрацию рабочих процессов на основе языковых моделей с синтаксическим рассуждением Datalog+/- . Она обеспечивает адаптивное и объяснимое принятие решений за счёт пошагового планирования рабочих процессов и выполнения логических выводов по требованию, предоставляя подтверждаемые следы, возможность аудита и масштабируемость при работе с большими наборами данных.

arxiv arXiv cs.AI · 1 д назад

SCOPE: Самоадаптивное символическое планирование для открытых сред

SCOPE представляет рамку, которая уточняет планы действий и развивает символические модели мира в открытых средах. Она объединяет Символьный исполнительный симулятор и Самоадаптивную символическую память для повышения полноты планов, устойчивости к возмущениям и переключаемости между задачами.

arxiv arXiv cs.AI · 1 д назад

Агент на основе больших языковых моделей для проектирования направляющих купелей на основе силикон-на-изоляции

Большая языковая модель координирует проектирование силикон-на-изоляции 2x2 направляющей купели, предлагая значения зазоров и оценивая сходимость. Проектирование подтверждается симуляцией собственных модов и FDTD на общем двухмерном эффективном индексе, что показывает стабильное смещение фазы 2,837(11) микрометра, корректируемое в замкнутом процессе. Конечное устройство достигает равномерного распределения 50/50 с коэффициентом перекрещивания 0,498, в пределах 0,0017 от целевого значения.

lab Mistral AI News · 1 д назад

Новые элементы управления для безопасности и доступа в корпоративной среде

Mistral Studio теперь предлагает расширенные элементы управления для администрирования доступа к соединителям в зависимости от рабочей области и инструмента, что позволяет настроить детальные разрешения. В функционале представлены ключи API с областями, соединители для нескольких аккаунтов и новый Connectors Debugger для анализа причин сбоев, все это обеспечивает безопасные и аудитуемые интеграции с корпоративными системами.

media Hugging Face Forums · 1 д назад

Прототип мобильного агента Aiden

Aiden — это физическое устройство ИИ-агента, которое контролирует экран телефона через HDMI и управляет им через USB HID, позволяя автоматизировать приложения без jailbreak или установленного программного обеспечения. Оно поддерживает использование собственных моделей LLM, работает без необходимости в backend-инфраструктуре или сборе данных, и выпущено под лицензией AGPL как открытая разработка платформы.

arxiv arXiv cs.AI · 1 д назад

Заземленное масштабирование: детерминизм как основное ограничение в агентной ИИ

Производительность агентной ИИ экспоненциально снижается в непредсказуемых средах, при этом успешность за k шагов уменьшается как δ^k, когда детерминизм на каждом шаге δ < 1. В статье представлены рамки, связывающие детерминизм среды с успешностью задачи, верифицируемостью и эволюцией навыков, предложены Индекс уверенности поставки и пятиуровневая модель зрелости детерминизма. В статье критически переосмысляются существующие взгляды, выделяя детерминизм как ограничивающий фактор в областях вычислений, данных, воплощения и синхронизации.

arxiv arXiv cs.AI · 1 д назад

Gazer: обнаружение ошибок семантики без обучения для автокорректирующих визуальных моделей

Gazer представляет рамку без обучения, которая использует обратную связь крупных моделей языка с несколькими модальностями для исправления ошибок семантики в реальном времени во время генерации автокорректирующими визуальными моделями. Интегрируя этапы отражательной диагностики и исправления семантики, Gazer повышает точность составления и выравнивание семантики между несколькими моделями без дополнительного обучения.

arxiv arXiv cs.AI · 1 д назад

MacAgentBench запускает бенчмарк искусственного интеллекта для агентов macOS

MacAgentBench представляет всесторонний бенчмарк, включающий 676 задач по 25 приложениям, 60% из которых включают взаимодействие как с графическим интерфейсом, так и с командной строкой. Бенчмарк использует детерминированный правило-ориентированный подход к оценке и оценивает результаты с использованием мелких контрольных точек, показывая, что Claude Opus 4.6 на OpenClaw достигает 73,7% Pass@1, что в основном обусловлено его библиотекой навыков, а не архитектурой фреймворка.

media r/LocalLLaMA · 1 д назад

Выпущен модель Nex-N2-Mini-Ultra-Uncensored-Heretic

Модель Nex-N2-Mini-Ultra-Uncensored-Heretic теперь доступна, с агентным мышлением, 5/100 отказов и KLD 0,0020. Модель выпущена в форматах Safetensors и GGUF и доступна через Hugging Face. Создатель отмечает, что был выбран Heretic 1.2.0 вместо 1.4.0 из-за лучшей производительности при избежании высокого KLD и сохранении низких порогов отказов.

arxiv arXiv cs.AI · 1 д назад

PaperClaw: автономные исследования с вовлечением человека на этапе уточнения

PaperClaw — это многоагентная система, которая автономно проводит исследования от выбора направления до публикации статьи. Она использует проверенный итеративный цикл предложение-тест-отражение, основанный на реальных ссылках и выполнимых результатах, и обеспечивает вовлечение человека на любом этапе. Оценка показывает, что система создаёт сильные статьи как автономно, так и при участии человека.

arxiv arXiv cs.LG · 1 д назад

DataClaw0: Агентная настройка мультимодальных данных из исходных потоков

DataClaw0 вводит агентную парадигму для активного уточнения исходных мультимодальных данных с целью соответствия намерениям пользователя и последующих задач. Оно использует двухэтапную схему, основанную на фактических опорах, для создания масштабного набора данных в пяти областях и объединяет обучение с помощью надзора и GRPO для достижения сильной синхронизации с сложными задачами уточнения. Оценка на генерации видео, VQA и навигации в интерфейсе, DataClaw0 обеспечивает высокую плотность информационного содержания в настраиваемых данных, что позволяет эффективно адаптировать модели при минимальном объеме обучающих данных.

arxiv arXiv cs.LG · 1 д назад

Нейронный кодек действий для моделей визуально-языковых-действий

NAC, архитектура, вдохновленная нейронным аудиокодеком, сжимает траектории действий робота как многоканальные одномерные сигналы с использованием многоуровневой резидуальной векторной квантовой. Заменяя потери мел-спектрограмм на восстановление в временной области и не-мел спектральной, NAC достигает высокой точности кодирования действий при минимальных изменениях архитектуры, превосходя существующие токенизаторы по ошибке восстановления и показателям успеха на реальных задачах манипулирования.

arxiv arXiv cs.LG · 1 д назад

VLA-FAIL: Легкая система обнаружения сбоев для моделей визуально-языковых-действий

VLA-FAIL представляет легкую систему обнаружения сбоев для моделей визуально-языковых-действий, использующую расстояние Махаланобиса на последнем слое и согласованность блоков действий, не требуя данных о сбоях или дорогостоящего выбора действий. Система объединяет эти детекторы для достижения надежного и раннего обнаружения сбоев на различных задачах, превосходя базовые методы как по точности, так и по эффективности.

arxiv arXiv cs.LG · 1 д назад

Фреймворк LDT-FRL для кибер-устойчивых IoMT

Фреймворк LDT-FRL вводит систему защиты с сохранением конфиденциальности для устройств IoMT, объединяя временной внимательный механизм, лёгкие цифровые двойники и федеративное обучение с подкреплением. Он достигает точности 99,66% и 99,95% на тестах CICDDoS 2019 и TON-IoT, с идеальной F1 на классе MITM, сходится на 81% быстрее, чем ранее известные методы, и обеспечивает интерпретируемость решений защиты через SHAP и Grad-CAM.

arxiv arXiv cs.LG · 1 д назад

ASCII Art позволяет текстовым LLM контролировать системы VLA

Текстовый большой языковой модель может быть адаптирован к контроллеру Vision--Language--Action с использованием ASCII-рендеренных визуальных наблюдений. Этот подход позволяет LLM интерпретировать визуальные состояния через текст, что позволяет им следовать инструкциям на естественном языке и генерировать исполняемые действия как в симуляции, так и на физических манипуляторах.