AI agents
arxiv arXiv cs.CL · только что Live

BiPACE: Оптимизация политики с учётом бисимуляции и контрфактическая оценка действий для агентов на основе больших языковых моделей

Авторы выявляют фундаментальное несоответствие в распределении заслуг между состоянием и действием при пошаговом групповом обучении с подкреплением (RL) для длинногоризонтных агентов на основе больших языковых моделей (LLM). Существующие оценщики страдают от чрезмерно детального разбиения по состояниям и грубого усреднения по действиям, что нарушает допущения эквивалентности при распределении заслуг. Предлагается BiPACE — встроенный оценщик преимущества, устраняющий эти проблемы без добавления критиков или дополнительных проходов (rollouts). Он группирует шаги на основе косинусного расстояния в геометрии скрытых состояний актора, чтобы уменьшить количество одиночных групп, и центрирует награды с использованием базовых линий, зависящих от действия. В задаче ALFWorld с моделью Qwen2.5-7B BiPACE_Q повышает успешность на валидации с 90,8 до 97,1±0,9, преодолевая порог в 95% при каждом начальном зерне (seed). Он также улучшает результаты для Qwen2.5-1.5B и демонстрирует прирост производительности на WebShop и TextCraft по сравнению с GRPO и GiGPO. Метод добавляет лишь 11,3% накладных расходов к времени выполнения одного шага обучения, изменяя единицу сравнения на приближённое поведенческое эквивалентность.

arxiv arXiv cs.CL · только что Live

Налог на ограничения в LLM с открытым весом: подавление вызова инструментов при структурных ограничениях вывода

В данном исследовании выявлен феномен, называемый подавлением вызова инструментов (Tool Suppression), при котором языковые модели с открытым весом перестают вызывать инструменты, когда одновременно включены ограничения JSON Schema. Авторы наблюдали это поведение в производственной системе агентов и воспроизвели его посредством контролируемых экспериментов на нескольких семействах моделей. Хотя выполнение инструментов и соответствие схеме корректно функционируют при независимой оценке, они дают сбой при совместном развертывании. Анализ показывает, что ограничения JSON Schema компилируются в грамматические маски токенов, делая токены вызова инструментов недостижимыми во время декодирования. Для интерпретации этих результатов статья выдвигает гипотезу о инверсии приоритета ограничений (Constraint Priority Inversion), предполагающую, что удовлетворение схеме доминирует над выбором действия при одновременных ограничениях. Авторы смягчают эту проблему, внедряя стратегию выполнения на этапе вывода под названием Transparent Two-Pass Execution, которая разделяет выполнение инструментов и генерацию ответа. Этот подход восстанавливает вызов инструментов, сохраняя гарантии структурированного вывода без необходимости переобучения модели. Исследование подчеркивает, что оценка возможностей по отдельности может упускать из виду критические проблемы надежности в производственных системах.

arxiv arXiv cs.CL · только что Live

REVERIEMEM: Ограниченная перспективой память для ролевых агентов на основе книг

Недавние системы ролевой игры на базе больших языковых моделей часто терпят неудачу в контекстах длинных нарративов из-за фактических переобобщений и стилистической монотонности. Фактические переобобщения возникают, когда персонажи получают доступ к информации за пределами своей нарративной перспективы, а стилевая монотонность сглаживает голоса персонажей посредством статических описаний профилей. Для решения этих проблем авторы предлагают REVERIEMEM — трехуровневую архитектуру памяти, разработанную для книжных персональных агентов. Эта система использует эпизодический слой для воспоминаний о сценах от первого лица, семантический слой для фактов с тегами видимости и слой личности для поведенческих паттернов, зависящих от ситуации. Исследователи также представляют KBF-QA — бенчмарк, состоящий из 4386 вопросов по восьми романам, предназначенный для проверки границ знаний. Экспериментальные результаты показывают, что REVERIEMEM улучшает показатель верности границам знаний (Knowledge Boundary Fidelity) на 34,6 процентных пункта по сравнению с предыдущими методами. Кроме того, модель достигает примерно 79% доли побед в пятимерном парном нарративном протоколе BOOKWORLD. Эти выводы свидетельствуют о том, что память, ограниченная перспективой, эффективно повышает как фактическую точность, так и генерацию нарративов, привязанных к персонажу.

arxiv arXiv cs.CL · 1 ч назад Live

MedGuards: Многоагентная система для надежного обнаружения и исправления медицинских ошибок

Авторы предлагают MedGuards, фреймворк защитных механизмов безопасности в медицине, предназначенный для обнаружения и исправления ошибок в тексте, сгенерированном большими языковыми моделями. Эта система рассматривает обработку ошибок как задачу контекстного обучения с несколькими агентами, где специализированные агенты по отдельности выполняют обнаружение, локализацию и исправление. Механизм арбитража, управляемый уверенностью, разрешает разногласия между агентами с использованием цепочек рассуждений и оценок уверенности без необходимости дополнительного обучения модели. В исследовании вводится новый показатель — Keyword-Prioritized Correction Score (KPCS), который оценивает точность критически важных ключевых слов в эталонном тексте. Эксперименты, проведенные на четырех многоязычных медицинских наборах данных клинических заметок, демонстрируют значительное улучшение показателей производительности. Эти результаты подчеркивают улучшенную интерпретируемость, устойчивость и адаптивность для более безопасного развертывания больших языковых моделей в здравоохранении. Код для бенчмарка MedErrBench общедоступен на GitHub.

media Hugging Face Forums · 2 ч назад

Niodoo: локальный рантайм для управления скрытым состоянием замороженных LLM

Джейсон Ван Фам выпустил Niodoo, локальный рантайм, предназначенный для управления замороженными большими языковыми моделями через их скрытые состояния. Проект направлен на исправление ошибок последнего шага путем внедрения шума или «физических сил» во время вывода данных, чтобы разорвать циклы токенов. Этот подход позволяет меньшим моделям улучшать производительность без тонкой настройки, ориентирован на конкретные случаи сбоев, такие как бенчмарк Llama strawberry prompt. Система генерирует собственные теги телеметрии и использует анализ TDA для мониторинга внутренних состояний модели на предмет циклического поведения. Ван Фам разработал этот инструмент органически в ходе месяцев самостоятельных исследований и тестирования на проникновение (red-teaming), делая акцент на воспроизводимых результатах с зафиксированными хешами. Код доступен на GitHub в репозитории Ruffian-L/niodoo-hidden-state-steering.

arxiv arXiv cs.CL · 2 ч назад

Бенчмарк Argus оценивает стабильность количественной оценки неопределённости для моделей «зрение-язык» и наборов данных GUI Grounding

Авторы представляют Argus, бенчмарк, предназначенный для оценки постхоковой количественной оценки неопределённости для агентов компьютерного использования, которые преобразуют предсказания моделей «зрение-язык» в исполняемые действия GUI. Исследование оценивает 28 методов с открытым исходным кодом на четырёх агентах VLM и четырёх наборах данных, а также восемь закрытых коммерческих методов от трёх поставщиков, где внутренние состояния моделей недоступны. Ключевые выводы выявляют селективную стабильность переноса: рейтинги неопределённости остаются согласованными для фиксированной модели в разных наборах данных, но значительно ухудшаются при переходе между различными классами моделей или наблюдаемыми интерфейсами. Среди методов с открытым исходным кодом техники оценки скрытых состояний и плотности продемонстрировали наивысшую стабильность, тогда как в определённых режимах предпочтительными оказались оценки на основе сэмплирования или вербализованной самооценки. Перенос внутри-модельных рейтингов оказался сильным со значениями ранговой корреляции Спирмена до 0,969, тогда как межуровневый перенос к закрытым коммерческим поставщикам в среднем составил лишь +0,08. Исследование также показывает, что конформные области кликов уменьшают радиусы на 40–60 процентов после калибровки, но страдают от снижения покрытия при несовпадении интерфейсов. Для поддержки выбора с учётом режима авторы публикуют записи по каждому элементу, разделения для калибровки, оценки UQ и скрипты анализа.

arxiv arXiv cs.CL · 2 ч назад

ToolBench-X: Оценка агентов, использующих инструменты, в ненадежных средах

Авторы представляют ToolBench-X, новый бенчмарк, предназначенный для оценки агентов на основе больших языковых моделей в условиях восстанавливаемой ненадежности инструментальной среды. В отличие от существующих бенчмарков, предполагающих чистые и стабильные среды, данная фреймворк внедряет пять структурированных типов опасностей: Specification Drift (дрейф спецификации), Invocation Error (ошибка вызова), Execution Failure (сбой выполнения), Output Drift (дрейф вывода) и Cross-source Conflict (конфликт между источниками). Набор данных содержит исполняемые многошаговые задачи в различных доменах с детерминированными инструментами и каноническими окончательными ответами для автоматической оценки. Ключевым аспектом является то, что каждый внедренный экземпляр остается решаемым через корректные пути восстановления, такие как повторная попытка, использование резервного варианта или проверка. Эксперименты выявляют существенный разрыв в надежности: агенты, демонстрирующие хорошие результаты при работе с надежными инструментами, часто терпят неудачу под воздействием этих опасностей. Дополнительный анализ показывает, что сбои обусловлены ограниченной способностью к диагностике опасностей и неэффективным восстановлением, а не объемом использования инструментов или вычислительным бюджетом на инференс. Целевые подсказки для восстановления успешно позволяют завершить многие упавшие задачи, тогда как масштабирование во время тестирования дает более скромные улучшения. Эти результаты указыва

media r/LocalLLaMA · 5 ч назад

Colony: Образовательная симуляция механизмов внимания LLM с использованием аналогий на основе агентов

Colony — это образовательный ресурс, предназначенный для объяснения механизма внимания больших языковых моделей (LLM) посредством простых аналогий с участием агентов. Симуляция помещает этих агентов в среду-поле, вдохновлённую игрой «Жизнь» Конвея. Каждый агент в системе представляет определённую роль внутри механизма блока самовнимания LLM. Такой визуальный подход позволяет пользователям наблюдать за тем, как информация течёт и взаимодействует в процессе внимания. Проект доступен как инструмент с открытым исходным кодом для тех, кто заинтересован в изучении этих концепций без сложной математики. Он служит увлекательным и доступным способом понять внутреннее устройство трансформерных моделей.

lab Claude Code Releases · 6 ч назад

Примечания к выпуску Claude Code v2.1.191

Версия Claude Code 2.1.191 добавляет поддержку команды /rewind, позволяя пользователям возобновлять разговоры с момента до выполнения команды /clear. Обновление устраняет несколько критических проблем, включая повторное появление фоновых агентов после их остановки и скачки позиции прокрутки во время потоковой передачи ответов. Также исправлено поведение, при котором команда /voice отображала общие сообщения об ошибках, а URL-адреса для /login усечались в Windows Terminal. Значительные улучшения повышают надёжность работы с MCP-серверами за счёт добавления логики повторных попыток при временных сетевых ошибках во время обнаружения возможностей и потоков OAuth. В безголовых средах теперь пропускаются всплывающие окна браузера для OAuth, а разрешения сети для песочницы запоминаются на протяжении всей сессии. Оптимизации производительности снижают использование процессора во время потоковой передачи примерно на 37% за счёт объединения обновлений текста и предотвращают рост потребления памяти при длительных сессиях из-за кэша вывода терминала.

lab Google DeepMind Blog · 10 ч назад

Геми 3.5 Флэш добавляет функцию использования компьютера

Google представил возможность использования компьютера в Геми 3.5 Флэш, что позволяет модели выполнять код и взаимодействовать с внешними инструментами. Эта функция позволяет пользователям запускать задачи по программированию и получать информацию в реальном времени через интегрированные вычислительные функции.

arxiv arXiv cs.AI · 11 ч назад

MetaPS: адаптивный выбор стратегии для агентов рынка

MetaPS - это рамка, основанная на симуляции, которая позволяет агентам рынка адаптивно выбирать среди стратегий на основе состояния рынка. Она использует симулированные рынки для генерации обучающих данных в формате надзора, затем при инференсе выбирает стратегии для генерации исполняемых действий. Эксперименты показывают, что MetaPS превосходит фиксированные стратегии и агентов на основе языковых моделей, при этом компактные модели превосходят более сильные модели API по производительности.

arxiv arXiv cs.AI · 11 ч назад

PlanBench-XL: Бенчмарк для планирования использования инструментов на длительных горизонтах

PlanBench-XL оценивает долгосрочное планирование в агентах на основе языковых моделей через 327 задач по розничной торговле, используя 1665 инструментов. В нем вводится механизм блокировки для имитации сбоев инструментов в реальном мире, что показывает, что агенты, такие как GPT-5.4, снижают свою точность с 51,90% до 11,36% при серьезных сбоях, подчеркивая уязвимости в восстановлении и обработке ошибок.

arxiv arXiv cs.AI · 11 ч назад

Структурный индекс базы кода улучшает разрешение без дополнительной стоимости

Структурный индекс базы кода в агентах разработки повышает эффективность локализации и разрешения без увеличения стоимости на ячейку. Он превосходит базовые варианты agentic-grep по обоим показателям и обеспечивает меньшую стоимость за решённую задачу, особенно в нагрузках с изменениями нескольких файлов.

arxiv arXiv cs.AI · 12 ч назад

Саморазвивающаяся когнитивная структура для встроенной научной интеллектуальности

В статье предлагается саморазвивающаяся когнитивная структура, использующая каскадную модель мира для обеспечения того, что встроенные системы непрерывно уточняют свои внутренние модели через взаимодействие. Она интегрирует каскадное моделирование, рассуждение на основе вмешательства и непрерывное уточнение, переосмысливая встроенное взаимодействие как эпистемический процесс для открытия причин и приобретения знаний. Структура поддерживает переход от предиктивной к эпистемической интеллектуальности, включая новый бенчмарк для оценки саморазвивающейся встроенной научной интеллектуальности.

arxiv arXiv cs.AI · 13 ч назад

VADAOrchestra: нейросимволическая оркестрация адаптивных рабочих процессов

VADAOrchestra представляет нейросимволическую архитектуру, сочетающую оркестрацию рабочих процессов на основе языковых моделей с синтаксическим рассуждением Datalog+/- . Она обеспечивает адаптивное и объяснимое принятие решений за счёт пошагового планирования рабочих процессов и выполнения логических выводов по требованию, предоставляя подтверждаемые следы, возможность аудита и масштабируемость при работе с большими наборами данных.

arxiv arXiv cs.AI · 13 ч назад

SCOPE: Самоадаптивное символическое планирование для открытых сред

SCOPE представляет рамку, которая уточняет планы действий и развивает символические модели мира в открытых средах. Она объединяет Символьный исполнительный симулятор и Самоадаптивную символическую память для повышения полноты планов, устойчивости к возмущениям и переключаемости между задачами.

arxiv arXiv cs.AI · 13 ч назад

Агент на основе больших языковых моделей для проектирования направляющих купелей на основе силикон-на-изоляции

Большая языковая модель координирует проектирование силикон-на-изоляции 2x2 направляющей купели, предлагая значения зазоров и оценивая сходимость. Проектирование подтверждается симуляцией собственных модов и FDTD на общем двухмерном эффективном индексе, что показывает стабильное смещение фазы 2,837(11) микрометра, корректируемое в замкнутом процессе. Конечное устройство достигает равномерного распределения 50/50 с коэффициентом перекрещивания 0,498, в пределах 0,0017 от целевого значения.

lab Mistral AI News · 14 ч назад

Новые элементы управления для безопасности и доступа в корпоративной среде

Mistral Studio теперь предлагает расширенные элементы управления для администрирования доступа к соединителям в зависимости от рабочей области и инструмента, что позволяет настроить детальные разрешения. В функционале представлены ключи API с областями, соединители для нескольких аккаунтов и новый Connectors Debugger для анализа причин сбоев, все это обеспечивает безопасные и аудитуемые интеграции с корпоративными системами.

media Hugging Face Forums · 14 ч назад

Прототип мобильного агента Aiden

Aiden — это физическое устройство ИИ-агента, которое контролирует экран телефона через HDMI и управляет им через USB HID, позволяя автоматизировать приложения без jailbreak или установленного программного обеспечения. Оно поддерживает использование собственных моделей LLM, работает без необходимости в backend-инфраструктуре или сборе данных, и выпущено под лицензией AGPL как открытая разработка платформы.

arxiv arXiv cs.AI · 15 ч назад

Заземленное масштабирование: детерминизм как основное ограничение в агентной ИИ

Производительность агентной ИИ экспоненциально снижается в непредсказуемых средах, при этом успешность за k шагов уменьшается как δ^k, когда детерминизм на каждом шаге δ < 1. В статье представлены рамки, связывающие детерминизм среды с успешностью задачи, верифицируемостью и эволюцией навыков, предложены Индекс уверенности поставки и пятиуровневая модель зрелости детерминизма. В статье критически переосмысляются существующие взгляды, выделяя детерминизм как ограничивающий фактор в областях вычислений, данных, воплощения и синхронизации.