AI agents
media r/LocalLLaMA · 21 ч назад

Colony: Образовательная симуляция механизмов внимания LLM с использованием аналогий на основе агентов

Colony — это образовательный ресурс, предназначенный для объяснения механизма внимания больших языковых моделей (LLM) посредством простых аналогий с участием агентов. Симуляция помещает этих агентов в среду-поле, вдохновлённую игрой «Жизнь» Конвея. Каждый агент в системе представляет определённую роль внутри механизма блока самовнимания LLM. Такой визуальный подход позволяет пользователям наблюдать за тем, как информация течёт и взаимодействует в процессе внимания. Проект доступен как инструмент с открытым исходным кодом для тех, кто заинтересован в изучении этих концепций без сложной математики. Он служит увлекательным и доступным способом понять внутреннее устройство трансформерных моделей.

lab Claude Code Releases · 22 ч назад

Примечания к выпуску Claude Code v2.1.191

Версия Claude Code 2.1.191 добавляет поддержку команды /rewind, позволяя пользователям возобновлять разговоры с момента до выполнения команды /clear. Обновление устраняет несколько критических проблем, включая повторное появление фоновых агентов после их остановки и скачки позиции прокрутки во время потоковой передачи ответов. Также исправлено поведение, при котором команда /voice отображала общие сообщения об ошибках, а URL-адреса для /login усечались в Windows Terminal. Значительные улучшения повышают надёжность работы с MCP-серверами за счёт добавления логики повторных попыток при временных сетевых ошибках во время обнаружения возможностей и потоков OAuth. В безголовых средах теперь пропускаются всплывающие окна браузера для OAuth, а разрешения сети для песочницы запоминаются на протяжении всей сессии. Оптимизации производительности снижают использование процессора во время потоковой передачи примерно на 37% за счёт объединения обновлений текста и предотвращают рост потребления памяти при длительных сессиях из-за кэша вывода терминала.

arxiv arXiv cs.AI · 1 д назад

Гипотеза-ориентированная оптимизация навыков для агентов на основе языковых моделей

HDSO обеспечивает безопасные и проверяемые обновления навыков для агентов на основе языковых моделей без обучения, используя фальсифицируемые гипотезы и проверку. На ALFWorld он улучшает Qwen3-8B на +6,9 точек среднего результата, и сохраняет прирост в +7,1 точку при шумной обратной связи, при этом проверенные навыки передаются между запусками и моделями при достижении диагностической синхронизации.

lab Google DeepMind Blog · 1 д назад

Геми 3.5 Флэш добавляет функцию использования компьютера

Google представил возможность использования компьютера в Геми 3.5 Флэш, что позволяет модели выполнять код и взаимодействовать с внешними инструментами. Эта функция позволяет пользователям запускать задачи по программированию и получать информацию в реальном времени через интегрированные вычислительные функции.

arxiv arXiv cs.AI · 1 д назад

MetaPS: адаптивный выбор стратегии для агентов рынка

MetaPS - это рамка, основанная на симуляции, которая позволяет агентам рынка адаптивно выбирать среди стратегий на основе состояния рынка. Она использует симулированные рынки для генерации обучающих данных в формате надзора, затем при инференсе выбирает стратегии для генерации исполняемых действий. Эксперименты показывают, что MetaPS превосходит фиксированные стратегии и агентов на основе языковых моделей, при этом компактные модели превосходят более сильные модели API по производительности.

arxiv arXiv cs.AI · 1 д назад

PlanBench-XL: Бенчмарк для планирования использования инструментов на длительных горизонтах

PlanBench-XL оценивает долгосрочное планирование в агентах на основе языковых моделей через 327 задач по розничной торговле, используя 1665 инструментов. В нем вводится механизм блокировки для имитации сбоев инструментов в реальном мире, что показывает, что агенты, такие как GPT-5.4, снижают свою точность с 51,90% до 11,36% при серьезных сбоях, подчеркивая уязвимости в восстановлении и обработке ошибок.

arxiv arXiv cs.AI · 1 д назад

Структурный индекс базы кода улучшает разрешение без дополнительной стоимости

Структурный индекс базы кода в агентах разработки повышает эффективность локализации и разрешения без увеличения стоимости на ячейку. Он превосходит базовые варианты agentic-grep по обоим показателям и обеспечивает меньшую стоимость за решённую задачу, особенно в нагрузках с изменениями нескольких файлов.

arxiv arXiv cs.AI · 1 д назад

Саморазвивающаяся когнитивная структура для встроенной научной интеллектуальности

В статье предлагается саморазвивающаяся когнитивная структура, использующая каскадную модель мира для обеспечения того, что встроенные системы непрерывно уточняют свои внутренние модели через взаимодействие. Она интегрирует каскадное моделирование, рассуждение на основе вмешательства и непрерывное уточнение, переосмысливая встроенное взаимодействие как эпистемический процесс для открытия причин и приобретения знаний. Структура поддерживает переход от предиктивной к эпистемической интеллектуальности, включая новый бенчмарк для оценки саморазвивающейся встроенной научной интеллектуальности.

arxiv arXiv cs.AI · 1 д назад

VADAOrchestra: нейросимволическая оркестрация адаптивных рабочих процессов

VADAOrchestra представляет нейросимволическую архитектуру, сочетающую оркестрацию рабочих процессов на основе языковых моделей с синтаксическим рассуждением Datalog+/- . Она обеспечивает адаптивное и объяснимое принятие решений за счёт пошагового планирования рабочих процессов и выполнения логических выводов по требованию, предоставляя подтверждаемые следы, возможность аудита и масштабируемость при работе с большими наборами данных.

arxiv arXiv cs.AI · 1 д назад

SCOPE: Самоадаптивное символическое планирование для открытых сред

SCOPE представляет рамку, которая уточняет планы действий и развивает символические модели мира в открытых средах. Она объединяет Символьный исполнительный симулятор и Самоадаптивную символическую память для повышения полноты планов, устойчивости к возмущениям и переключаемости между задачами.

arxiv arXiv cs.AI · 1 д назад

Агент на основе больших языковых моделей для проектирования направляющих купелей на основе силикон-на-изоляции

Большая языковая модель координирует проектирование силикон-на-изоляции 2x2 направляющей купели, предлагая значения зазоров и оценивая сходимость. Проектирование подтверждается симуляцией собственных модов и FDTD на общем двухмерном эффективном индексе, что показывает стабильное смещение фазы 2,837(11) микрометра, корректируемое в замкнутом процессе. Конечное устройство достигает равномерного распределения 50/50 с коэффициентом перекрещивания 0,498, в пределах 0,0017 от целевого значения.

lab Mistral AI News · 1 д назад

Новые элементы управления для безопасности и доступа в корпоративной среде

Mistral Studio теперь предлагает расширенные элементы управления для администрирования доступа к соединителям в зависимости от рабочей области и инструмента, что позволяет настроить детальные разрешения. В функционале представлены ключи API с областями, соединители для нескольких аккаунтов и новый Connectors Debugger для анализа причин сбоев, все это обеспечивает безопасные и аудитуемые интеграции с корпоративными системами.

media Hugging Face Forums · 1 д назад

Прототип мобильного агента Aiden

Aiden — это физическое устройство ИИ-агента, которое контролирует экран телефона через HDMI и управляет им через USB HID, позволяя автоматизировать приложения без jailbreak или установленного программного обеспечения. Оно поддерживает использование собственных моделей LLM, работает без необходимости в backend-инфраструктуре или сборе данных, и выпущено под лицензией AGPL как открытая разработка платформы.

arxiv arXiv cs.AI · 1 д назад

Заземленное масштабирование: детерминизм как основное ограничение в агентной ИИ

Производительность агентной ИИ экспоненциально снижается в непредсказуемых средах, при этом успешность за k шагов уменьшается как δ^k, когда детерминизм на каждом шаге δ < 1. В статье представлены рамки, связывающие детерминизм среды с успешностью задачи, верифицируемостью и эволюцией навыков, предложены Индекс уверенности поставки и пятиуровневая модель зрелости детерминизма. В статье критически переосмысляются существующие взгляды, выделяя детерминизм как ограничивающий фактор в областях вычислений, данных, воплощения и синхронизации.

arxiv arXiv cs.AI · 1 д назад

Gazer: обнаружение ошибок семантики без обучения для автокорректирующих визуальных моделей

Gazer представляет рамку без обучения, которая использует обратную связь крупных моделей языка с несколькими модальностями для исправления ошибок семантики в реальном времени во время генерации автокорректирующими визуальными моделями. Интегрируя этапы отражательной диагностики и исправления семантики, Gazer повышает точность составления и выравнивание семантики между несколькими моделями без дополнительного обучения.

arxiv arXiv cs.AI · 1 д назад

MacAgentBench запускает бенчмарк искусственного интеллекта для агентов macOS

MacAgentBench представляет всесторонний бенчмарк, включающий 676 задач по 25 приложениям, 60% из которых включают взаимодействие как с графическим интерфейсом, так и с командной строкой. Бенчмарк использует детерминированный правило-ориентированный подход к оценке и оценивает результаты с использованием мелких контрольных точек, показывая, что Claude Opus 4.6 на OpenClaw достигает 73,7% Pass@1, что в основном обусловлено его библиотекой навыков, а не архитектурой фреймворка.

media r/LocalLLaMA · 1 д назад

Выпущен модель Nex-N2-Mini-Ultra-Uncensored-Heretic

Модель Nex-N2-Mini-Ultra-Uncensored-Heretic теперь доступна, с агентным мышлением, 5/100 отказов и KLD 0,0020. Модель выпущена в форматах Safetensors и GGUF и доступна через Hugging Face. Создатель отмечает, что был выбран Heretic 1.2.0 вместо 1.4.0 из-за лучшей производительности при избежании высокого KLD и сохранении низких порогов отказов.

arxiv arXiv cs.AI · 1 д назад

PaperClaw: автономные исследования с вовлечением человека на этапе уточнения

PaperClaw — это многоагентная система, которая автономно проводит исследования от выбора направления до публикации статьи. Она использует проверенный итеративный цикл предложение-тест-отражение, основанный на реальных ссылках и выполнимых результатах, и обеспечивает вовлечение человека на любом этапе. Оценка показывает, что система создаёт сильные статьи как автономно, так и при участии человека.

arxiv arXiv cs.LG · 1 д назад

DataClaw0: Агентная настройка мультимодальных данных из исходных потоков

DataClaw0 вводит агентную парадигму для активного уточнения исходных мультимодальных данных с целью соответствия намерениям пользователя и последующих задач. Оно использует двухэтапную схему, основанную на фактических опорах, для создания масштабного набора данных в пяти областях и объединяет обучение с помощью надзора и GRPO для достижения сильной синхронизации с сложными задачами уточнения. Оценка на генерации видео, VQA и навигации в интерфейсе, DataClaw0 обеспечивает высокую плотность информационного содержания в настраиваемых данных, что позволяет эффективно адаптировать модели при минимальном объеме обучающих данных.

arxiv arXiv cs.LG · 1 д назад

Нейронный кодек действий для моделей визуально-языковых-действий

NAC, архитектура, вдохновленная нейронным аудиокодеком, сжимает траектории действий робота как многоканальные одномерные сигналы с использованием многоуровневой резидуальной векторной квантовой. Заменяя потери мел-спектрограмм на восстановление в временной области и не-мел спектральной, NAC достигает высокой точности кодирования действий при минимальных изменениях архитектуры, превосходя существующие токенизаторы по ошибке восстановления и показателям успеха на реальных задачах манипулирования.