AI agents
media Hugging Face Forums · 19 ч назад

Niodoo: локальный рантайм для управления скрытым состоянием замороженных LLM

Джейсон Ван Фам выпустил Niodoo, локальный рантайм, предназначенный для управления замороженными большими языковыми моделями через их скрытые состояния. Проект направлен на исправление ошибок последнего шага путем внедрения шума или «физических сил» во время вывода данных, чтобы разорвать циклы токенов. Этот подход позволяет меньшим моделям улучшать производительность без тонкой настройки, ориентирован на конкретные случаи сбоев, такие как бенчмарк Llama strawberry prompt. Система генерирует собственные теги телеметрии и использует анализ TDA для мониторинга внутренних состояний модели на предмет циклического поведения. Ван Фам разработал этот инструмент органически в ходе месяцев самостоятельных исследований и тестирования на проникновение (red-teaming), делая акцент на воспроизводимых результатах с зафиксированными хешами. Код доступен на GitHub в репозитории Ruffian-L/niodoo-hidden-state-steering.

arxiv arXiv cs.CL · 19 ч назад

Бенчмарк Argus оценивает стабильность количественной оценки неопределённости для моделей «зрение-язык» и наборов данных GUI Grounding

Авторы представляют Argus, бенчмарк, предназначенный для оценки постхоковой количественной оценки неопределённости для агентов компьютерного использования, которые преобразуют предсказания моделей «зрение-язык» в исполняемые действия GUI. Исследование оценивает 28 методов с открытым исходным кодом на четырёх агентах VLM и четырёх наборах данных, а также восемь закрытых коммерческих методов от трёх поставщиков, где внутренние состояния моделей недоступны. Ключевые выводы выявляют селективную стабильность переноса: рейтинги неопределённости остаются согласованными для фиксированной модели в разных наборах данных, но значительно ухудшаются при переходе между различными классами моделей или наблюдаемыми интерфейсами. Среди методов с открытым исходным кодом техники оценки скрытых состояний и плотности продемонстрировали наивысшую стабильность, тогда как в определённых режимах предпочтительными оказались оценки на основе сэмплирования или вербализованной самооценки. Перенос внутри-модельных рейтингов оказался сильным со значениями ранговой корреляции Спирмена до 0,969, тогда как межуровневый перенос к закрытым коммерческим поставщикам в среднем составил лишь +0,08. Исследование также показывает, что конформные области кликов уменьшают радиусы на 40–60 процентов после калибровки, но страдают от снижения покрытия при несовпадении интерфейсов. Для поддержки выбора с учётом режима авторы публикуют записи по каждому элементу, разделения для калибровки, оценки UQ и скрипты анализа.

arxiv arXiv cs.CL · 20 ч назад

ToolBench-X: Оценка агентов, использующих инструменты, в ненадежных средах

Авторы представляют ToolBench-X, новый бенчмарк, предназначенный для оценки агентов на основе больших языковых моделей в условиях восстанавливаемой ненадежности инструментальной среды. В отличие от существующих бенчмарков, предполагающих чистые и стабильные среды, данная фреймворк внедряет пять структурированных типов опасностей: Specification Drift (дрейф спецификации), Invocation Error (ошибка вызова), Execution Failure (сбой выполнения), Output Drift (дрейф вывода) и Cross-source Conflict (конфликт между источниками). Набор данных содержит исполняемые многошаговые задачи в различных доменах с детерминированными инструментами и каноническими окончательными ответами для автоматической оценки. Ключевым аспектом является то, что каждый внедренный экземпляр остается решаемым через корректные пути восстановления, такие как повторная попытка, использование резервного варианта или проверка. Эксперименты выявляют существенный разрыв в надежности: агенты, демонстрирующие хорошие результаты при работе с надежными инструментами, часто терпят неудачу под воздействием этих опасностей. Дополнительный анализ показывает, что сбои обусловлены ограниченной способностью к диагностике опасностей и неэффективным восстановлением, а не объемом использования инструментов или вычислительным бюджетом на инференс. Целевые подсказки для восстановления успешно позволяют завершить многие упавшие задачи, тогда как масштабирование во время тестирования дает более скромные улучшения. Эти результаты указыва

media r/LocalLLaMA · 22 ч назад

Colony: Образовательная симуляция механизмов внимания LLM с использованием аналогий на основе агентов

Colony — это образовательный ресурс, предназначенный для объяснения механизма внимания больших языковых моделей (LLM) посредством простых аналогий с участием агентов. Симуляция помещает этих агентов в среду-поле, вдохновлённую игрой «Жизнь» Конвея. Каждый агент в системе представляет определённую роль внутри механизма блока самовнимания LLM. Такой визуальный подход позволяет пользователям наблюдать за тем, как информация течёт и взаимодействует в процессе внимания. Проект доступен как инструмент с открытым исходным кодом для тех, кто заинтересован в изучении этих концепций без сложной математики. Он служит увлекательным и доступным способом понять внутреннее устройство трансформерных моделей.

lab Claude Code Releases · 23 ч назад

Примечания к выпуску Claude Code v2.1.191

Версия Claude Code 2.1.191 добавляет поддержку команды /rewind, позволяя пользователям возобновлять разговоры с момента до выполнения команды /clear. Обновление устраняет несколько критических проблем, включая повторное появление фоновых агентов после их остановки и скачки позиции прокрутки во время потоковой передачи ответов. Также исправлено поведение, при котором команда /voice отображала общие сообщения об ошибках, а URL-адреса для /login усечались в Windows Terminal. Значительные улучшения повышают надёжность работы с MCP-серверами за счёт добавления логики повторных попыток при временных сетевых ошибках во время обнаружения возможностей и потоков OAuth. В безголовых средах теперь пропускаются всплывающие окна браузера для OAuth, а разрешения сети для песочницы запоминаются на протяжении всей сессии. Оптимизации производительности снижают использование процессора во время потоковой передачи примерно на 37% за счёт объединения обновлений текста и предотвращают рост потребления памяти при длительных сессиях из-за кэша вывода терминала.

arxiv arXiv cs.AI · 1 д назад

Гипотеза-ориентированная оптимизация навыков для агентов на основе языковых моделей

HDSO обеспечивает безопасные и проверяемые обновления навыков для агентов на основе языковых моделей без обучения, используя фальсифицируемые гипотезы и проверку. На ALFWorld он улучшает Qwen3-8B на +6,9 точек среднего результата, и сохраняет прирост в +7,1 точку при шумной обратной связи, при этом проверенные навыки передаются между запусками и моделями при достижении диагностической синхронизации.

lab Google DeepMind Blog · 1 д назад

Геми 3.5 Флэш добавляет функцию использования компьютера

Google представил возможность использования компьютера в Геми 3.5 Флэш, что позволяет модели выполнять код и взаимодействовать с внешними инструментами. Эта функция позволяет пользователям запускать задачи по программированию и получать информацию в реальном времени через интегрированные вычислительные функции.

arxiv arXiv cs.AI · 1 д назад

MetaPS: адаптивный выбор стратегии для агентов рынка

MetaPS - это рамка, основанная на симуляции, которая позволяет агентам рынка адаптивно выбирать среди стратегий на основе состояния рынка. Она использует симулированные рынки для генерации обучающих данных в формате надзора, затем при инференсе выбирает стратегии для генерации исполняемых действий. Эксперименты показывают, что MetaPS превосходит фиксированные стратегии и агентов на основе языковых моделей, при этом компактные модели превосходят более сильные модели API по производительности.

arxiv arXiv cs.AI · 1 д назад

PlanBench-XL: Бенчмарк для планирования использования инструментов на длительных горизонтах

PlanBench-XL оценивает долгосрочное планирование в агентах на основе языковых моделей через 327 задач по розничной торговле, используя 1665 инструментов. В нем вводится механизм блокировки для имитации сбоев инструментов в реальном мире, что показывает, что агенты, такие как GPT-5.4, снижают свою точность с 51,90% до 11,36% при серьезных сбоях, подчеркивая уязвимости в восстановлении и обработке ошибок.

arxiv arXiv cs.AI · 1 д назад

Структурный индекс базы кода улучшает разрешение без дополнительной стоимости

Структурный индекс базы кода в агентах разработки повышает эффективность локализации и разрешения без увеличения стоимости на ячейку. Он превосходит базовые варианты agentic-grep по обоим показателям и обеспечивает меньшую стоимость за решённую задачу, особенно в нагрузках с изменениями нескольких файлов.

arxiv arXiv cs.AI · 1 д назад

Саморазвивающаяся когнитивная структура для встроенной научной интеллектуальности

В статье предлагается саморазвивающаяся когнитивная структура, использующая каскадную модель мира для обеспечения того, что встроенные системы непрерывно уточняют свои внутренние модели через взаимодействие. Она интегрирует каскадное моделирование, рассуждение на основе вмешательства и непрерывное уточнение, переосмысливая встроенное взаимодействие как эпистемический процесс для открытия причин и приобретения знаний. Структура поддерживает переход от предиктивной к эпистемической интеллектуальности, включая новый бенчмарк для оценки саморазвивающейся встроенной научной интеллектуальности.

arxiv arXiv cs.AI · 1 д назад

VADAOrchestra: нейросимволическая оркестрация адаптивных рабочих процессов

VADAOrchestra представляет нейросимволическую архитектуру, сочетающую оркестрацию рабочих процессов на основе языковых моделей с синтаксическим рассуждением Datalog+/- . Она обеспечивает адаптивное и объяснимое принятие решений за счёт пошагового планирования рабочих процессов и выполнения логических выводов по требованию, предоставляя подтверждаемые следы, возможность аудита и масштабируемость при работе с большими наборами данных.

arxiv arXiv cs.AI · 1 д назад

SCOPE: Самоадаптивное символическое планирование для открытых сред

SCOPE представляет рамку, которая уточняет планы действий и развивает символические модели мира в открытых средах. Она объединяет Символьный исполнительный симулятор и Самоадаптивную символическую память для повышения полноты планов, устойчивости к возмущениям и переключаемости между задачами.

arxiv arXiv cs.AI · 1 д назад

Агент на основе больших языковых моделей для проектирования направляющих купелей на основе силикон-на-изоляции

Большая языковая модель координирует проектирование силикон-на-изоляции 2x2 направляющей купели, предлагая значения зазоров и оценивая сходимость. Проектирование подтверждается симуляцией собственных модов и FDTD на общем двухмерном эффективном индексе, что показывает стабильное смещение фазы 2,837(11) микрометра, корректируемое в замкнутом процессе. Конечное устройство достигает равномерного распределения 50/50 с коэффициентом перекрещивания 0,498, в пределах 0,0017 от целевого значения.

lab Mistral AI News · 1 д назад

Новые элементы управления для безопасности и доступа в корпоративной среде

Mistral Studio теперь предлагает расширенные элементы управления для администрирования доступа к соединителям в зависимости от рабочей области и инструмента, что позволяет настроить детальные разрешения. В функционале представлены ключи API с областями, соединители для нескольких аккаунтов и новый Connectors Debugger для анализа причин сбоев, все это обеспечивает безопасные и аудитуемые интеграции с корпоративными системами.

media Hugging Face Forums · 1 д назад

Прототип мобильного агента Aiden

Aiden — это физическое устройство ИИ-агента, которое контролирует экран телефона через HDMI и управляет им через USB HID, позволяя автоматизировать приложения без jailbreak или установленного программного обеспечения. Оно поддерживает использование собственных моделей LLM, работает без необходимости в backend-инфраструктуре или сборе данных, и выпущено под лицензией AGPL как открытая разработка платформы.

arxiv arXiv cs.AI · 1 д назад

Заземленное масштабирование: детерминизм как основное ограничение в агентной ИИ

Производительность агентной ИИ экспоненциально снижается в непредсказуемых средах, при этом успешность за k шагов уменьшается как δ^k, когда детерминизм на каждом шаге δ < 1. В статье представлены рамки, связывающие детерминизм среды с успешностью задачи, верифицируемостью и эволюцией навыков, предложены Индекс уверенности поставки и пятиуровневая модель зрелости детерминизма. В статье критически переосмысляются существующие взгляды, выделяя детерминизм как ограничивающий фактор в областях вычислений, данных, воплощения и синхронизации.

arxiv arXiv cs.AI · 1 д назад

Gazer: обнаружение ошибок семантики без обучения для автокорректирующих визуальных моделей

Gazer представляет рамку без обучения, которая использует обратную связь крупных моделей языка с несколькими модальностями для исправления ошибок семантики в реальном времени во время генерации автокорректирующими визуальными моделями. Интегрируя этапы отражательной диагностики и исправления семантики, Gazer повышает точность составления и выравнивание семантики между несколькими моделями без дополнительного обучения.

arxiv arXiv cs.AI · 1 д назад

MacAgentBench запускает бенчмарк искусственного интеллекта для агентов macOS

MacAgentBench представляет всесторонний бенчмарк, включающий 676 задач по 25 приложениям, 60% из которых включают взаимодействие как с графическим интерфейсом, так и с командной строкой. Бенчмарк использует детерминированный правило-ориентированный подход к оценке и оценивает результаты с использованием мелких контрольных точек, показывая, что Claude Opus 4.6 на OpenClaw достигает 73,7% Pass@1, что в основном обусловлено его библиотекой навыков, а не архитектурой фреймворка.

media r/LocalLLaMA · 1 д назад

Выпущен модель Nex-N2-Mini-Ultra-Uncensored-Heretic

Модель Nex-N2-Mini-Ultra-Uncensored-Heretic теперь доступна, с агентным мышлением, 5/100 отказов и KLD 0,0020. Модель выпущена в форматах Safetensors и GGUF и доступна через Hugging Face. Создатель отмечает, что был выбран Heretic 1.2.0 вместо 1.4.0 из-за лучшей производительности при избежании высокого KLD и сохранении низких порогов отказов.