AI agents
arxiv arXiv cs.CL · 2 д назад

OpenBioRQ: Бенчмарк для верности агентных исследований в биомедицине

OpenBioRQ вводит бенчмарк из 12 553 нерешённых вопросов в области биомедицинских исследований в 12 областях, разработанный для проверки верности и отказа агентных моделей. Он оценивает модели в условиях использования инструментов без ключей ответов, используя реальные доказательства последующих шагов, а не параметрические знания, и показывает значительное падение агентной способности на самые сложные вопросы, где инструменты больше не используются, несмотря на их критическую важность.

arxiv arXiv cs.CL · 2 д назад

Moshi-Face: полудуплексная речевая диалоговая модель с генерацией лиц

Moshi-Face — первая полудуплексная речевая диалоговая модель, которая одновременно обрабатывает аудио и видео лица, генерируя как речь, так и синхронизированные движения лица. Модель использует кодек лица на основе VQ-VAE для кодирования и реконструкции 3D-сеток голов из видео лиц в дискретные токены лиц, и модуль Face Transformer для генерации этих токенов без автобака для получения аудиовизуального вывода в реальном времени. Проведённые эксперименты показывают, что Moshi-Face обеспечивает аудиовизуальную синхронизацию с низкой задержкой, сохраняя при этом исходное качество диалога.

arxiv arXiv cs.CL · 2 д назад

CFAgentBench: Метрика для автономных агентов по строительству и финансам

CFAgentBench представляет воспроизводимую, саморазвертываемую среду с 1014 задачами, подлежащими машинному оцениванию, в восьми областях, основанных на реальных источниках. В ней представлены 40 задач с оракельной проверкой и исполняемыми оценщиками, которые оценивают функциональную корректность с помощью сравнения состояний и регулярных выражений, включая защиту от передачи денег, требующую одобрения человека. Ключевым результатом является то, что лучшие агенты теряют 43% успехов при повторении задач при декодировании с температурой 0, что указывает на то, что производительность при одном попытке не отражает реальную применимость в условиях эксплуатации.

arxiv arXiv cs.CL · 2 д назад

Ноу: Прогнозирующая модель мира для долгосрочной памяти агента

Ноу представляет архитектуру памяти, основанную на прогнозировании, а не на хранении, используя категориальные распределения вероятностей для моделирования знаний о мире. Оценка на LoCoMo с GPT-4o-mini показывает значения F1 равные 63,50 (одношаговый), 55,32 (многошаговый), -58,57 (временной) и 62,50 (открытая область), превосходя A-MEM в трёх категориях и BeliefMem во всех, хотя различия в оценке ограничивают полную сопоставимость.

arxiv arXiv cs.CL · 2 д назад

Оценка искреннего возникающего консенсуса в обществах агентов на основе больших языковых моделей

Новая метрика, сочетающая гамму прироста, измеряет, как агенты корректируют свои мнения при возмущении взглядов соседей. Она показывает, что передовые большие языковые модели не поляризуются спонтанно, и диагностика конечного и начального мнения показывает, что заявленный возникающий консенсус в предыдущих работах включает артефакты моделей. Истинный консенсус возникает только тогда, когда учитывается групповой, модальность-совместимый сопряженный эффект, а не взаимодействие с одним соседом.

arxiv arXiv cs.CL · 2 д назад

PlanBench-XL: Метрика для планирования использования инструментов на длительных горизонтах

PlanBench-XL представляет метрику из 327 розничных задач по 1665 инструментам для оценки способности агентов на основе языковых моделей к итеративному извлечению и использованию инструментов в долгосрочном планировании. В ней включён механизм блокировки, имитирующий сбои инструментов, что показывает, что агенты, такие как GPT-5.4, снижают свою точность с 51,90% до 11,36% при серьёзных сбоях, что подчёркивает уязвимости в восстановлении и адаптации.

arxiv arXiv cs.CL · 2 д назад

VADAOrchestra: нейросимволическая оркестрация адаптивных рабочих потоков

VADAOrchestra представляет нейросимволическую архитектуру, сочетающую оркестрацию потоков на основе больших языковых моделей и синтаксическую логическую инференцию Datalog+/- . Она обеспечивает адаптивное и объяснимое принятие решений за счёт пошагового планирования потоков и выполнения логических инференций по запросу, обеспечивая аудитируемость, масштабируемость и проверяемость в реальных финансовых сценариях.

arxiv arXiv cs.CL · 2 д назад

MacAgentBench запускает бенчмарк AI-агента для macOS

MacAgentBench представляет всесторонний бенчмарк, включающий 676 задач по 25 приложениям, 60% из которых включают взаимодействие как с графическим интерфейсом, так и с командной строкой. Используя детерминированные правилу-ориентированные оценки и оценку с использованием мелких контрольных точек, было установлено, что Claude Opus 4.6 на OpenClaw достигает 73,7% Pass@1, в основном благодаря своей библиотеке навыков, а не архитектуре платформы.

media r/LocalLLaMA · 2 д назад

Серверы MCP расходуют окно контекста через определения инструментов

Каждый сервер MCP экспортирует полный список инструментов в контекст модели до появления запроса, используя до 24 000 токенов для 62 инструментов. Локальный гейтвей, реализующий ленивое открытие, снижает издержки на определения инструментов на 97%, снижая использование токенов с ~24 тыс. до ~660 на запрос, что приводит к 90% меньшему общему количеству токенов за задание, без влияния на успешность выполнения задачи.

arxiv arXiv cs.CL · 2 д назад

LRE: Агентская память на несколько килобайт с нулевыми нейронными затратами

LRE — это система, работающая только на процессоре и не использующая языковую модель, которая обучается определять, какие единицы истории взаимодействия являются несущими. Она превосходит базовые решения по балансу точности и затрат, сокращая пиковый размер контекста на 52% и улучшая выполнение задач на 37% в некоторых случаях. LRE обеспечивает высокое качество ответов при использовании на 68% меньше токенов и не требует аннотаций или нейронных вычислений для обучения.

arxiv arXiv cs.CL · 2 д назад

Beaver: агент-интерфейс для научной кураторской работы из мультимодальных источников

Beaver — это агент-интерфейс, который извлекает структурированную информацию из научных статей за счёт интеграции инструментов мультимодальной поддержки, структурирования задач и автономного поиска на основе артефактов. Он достигает 81,0 по показателю Gold-Referenced Attribute Score, превосходя передовые агенты на более чем 23 балла, с ключевыми достижениями по высокозначимым атрибутам, требующим мультимодального мышления.

arxiv arXiv cs.CL · 2 д назад

AdaMem: обучение того, что нужно запоминать, для персонализированных агентов на долгосрочной горизонте LLM

AdaMem обучает, что нужно запоминать для каждого пользователя на основе обратной связи, что снижает избыточность памяти и повышает точность ответов на вопросы на 9,0% по сравнению с базовыми моделями с равномерным запоминанием, при этом сокращая объём памяти на 9%.

arxiv arXiv cs.CL · 2 д назад

Dementia-Agents: Мультимодальный мультимодальный системный подход к стадированию деменции

Dementia-Agents представляет клинически согласованный мультимодальный фреймворк для стадирования и фенотипирования деменции в реальных условиях. Он повышает диагностическую производительность по сравнению с монолитными моделями и предыдущими системами, при сохранении уровня интерпретируемости на уровне области, используя данные из 1066 пациентов двух когнитивных неврологических служб.

arxiv arXiv cs.CL · 2 д назад

ARCO: адаптивный рубрикатор с когерентным развитием для агентов на основе многократных LLM

ARCO представляет рамку рубрики, которая позволяет осуществлять присвоение кредитов на уровне шагов для агентов на основе многократных LLM. Он одновременно обновляет общий модель с головками генерации и оценки, позволяя содержанию рубрики и функции оценки когерентно развиваться за счёт данных на-политики, что улучшает производительность и интерпретируемость на различных тестовых наборах.

media r/LocalLLaMA · 2 д назад

Microsoft выпустил открытый исходный код FastContext для агентов кодирования на основе LLM

Microsoft выпустил FastContext-1.0, легкий подагент для исследования репозиториев кода, который отделяет исследование репозиториев кода от решения задач в агентах кодирования на основе LLM. Он использует параллельные только для чтения вызовы инструментов для возврата компактных путей к файлам и диапазонов строк, что улучшает общую точность и снижает использование токенов на 60,3%, при этом модель 4B-RL превосходит модель 30B-SFT по SWE-bench Pro.

media Latent Space · 2 д назад

Объяснение рисков AI-атак и ввода промптов

Зико Колтер и Мэтт Фредриксон, соавторы ключевой статьи о косвенных вводах промптов и эксперты по модели Mythos, обсуждают растущие риски в области безопасности ИИ. Они отмечают, что ИИ-системы требуют особого подхода к безопасности, где агенты вводят новые уязвимости, и что специализированные команды по тестированию уязвимостей ИИ могут превосходить людей в нарушении моделей, что делает проникновение через ввод промптов все более вероятным.

lab Claude Code Releases · 3 д назад

Примечания по выпуску Claude v2.1.186

Claude v2.1.186 добавляет команды аутентификации через CLI для серверов MCP, фильтрацию статуса в рабочих процессах и раздел "Навыки" в настройках плагинов. В него включены множество исправлений ошибок в интерфейсе, управлении сессиями и поведении агента, а также улучшения парсинга YAML, управления памятью и проверки инструментов.

media MarkTechPost · 3 д назад

Sakana AI представляет Sakana Fugu: модель оркестрации агентов

Sakana AI представил Sakana Fugu — модель оркестрации, которая распределяет задачи по обменному пулу передовых моделей языковой обработки через одну API-интерфейс, совместимую с OpenAI. Fugu Ultra превосходит отдельные модели по ключевым тестам, таким как SWE Bench Pro и GPQA-D, и система демонстрирует превосходную производительность на сложных многократных задачах, таких как автоматическое исследование, решение кубика Рубика и игра в шахматы на глазах.

media r/LocalLLaMA · 3 д назад

TMax: Простой рецепт для агентов в терминале

TMax представляет TMax-15k, набор из 14 600 сред RL, превышающий на более чем 2,5 раза самый большой открытый набор сред в терминале. Также предлагается простой рецепт RL, который обучает открытые модели от 2 миллиардов до 27 миллиардов параметров, при этом TMax-9B достигает 27,2% на Terminal Bench 2.0, а TMax-27B — 42,7%.