AI agents
arxiv arXiv cs.CL · 2 д назад

Саморазвитие агентов, использующих инструменты, через обучение предпочтений в точках разрыва

ToolGraph повышает эффективность агентов, использующих инструменты в многоходовых сессиях, интегрируя схему топологии, веса переходов и контроль, учитывающий историю. Обучение с DPO на 161 паре предпочтений в точках разрыва улучшает производительность: ToolGraph+DPO достигает роста награды на 16,8% по сравнению с базовой версией, особенно в задачах авиационного и розничного сектора, где появление положительных наград выступает ключевым диагностическим сигналом.

arxiv arXiv cs.CL · 2 д назад

AFTER оценивает память о процедурах в агентах на основе ЛЛМ

AFTER представляет бенчмарк из 382 задач предприятий по шести ролям и 22 навыкам для оценки передачи навыков между задачами, ролями и моделями. Результаты показывают, что память о процедурах повышает производительность на 3,7–6,7 баллов за каждую итерацию и достигает точности 73,1% между моделями, при этом некоторые навыки обобщаются широко, а другие специализируются на рабочих процессах конкретных ролей.

lab Hugging Face Blog · 2 д назад

Создание реальных агентных приложений с CUGA: 24 рабочих примера

CUGA вводит легкий интерфейс, позволяющий разработчикам создавать реальные агентные приложения. В нем содержится 24 рабочих примера, демонстрирующих практическое применение в различных сценариях использования.

arxiv arXiv cs.CL · 2 д назад

AgentCIBench оценивает риски приватности в агентах, использующих компьютер

AgentCIBench представляет бенчмарк для оценки рисков приватности в агентах, использующих компьютер. Он выявляет три ключевых режима сбоев — визуальная совместная локация, избыточное раскрытие при неясных задачах и несоответствие получателя — и показывает, что 11 из 15 оцененных агентов раскрывают персональные данные в более чем 50% сценариев, при среднем уровне утечки 67,9%.

arxiv arXiv cs.CL · 2 д назад

Tmax: Простая рецептура RL для агентов-конечных

Tmax представляет наиболее сильную открытую рецептуру для агентов-конечных, достигая 27% на Terminal-Bench 2.0 с использованием только 9B параметров. Он использует новую классификацию данных для генерации более чем на 2,5 раза больше окончательных сред, что позволяет эффективно обучать с простой рецептурой, ориентированной только на результат. Данные, модели и код доступны на GitHub по адресу https://github.com/hamishivi/tmax.

arxiv arXiv cs.CL · 2 д назад

SelfCompact: Самодвижущийся сжатие контекста для языковых моделей

SelfCompact позволяет языковым моделям самостоятельно решать, когда и как сжимать накопленный контекст во время рассуждений. Сочетая инструмент сжатия, вызываемый моделью, с лёгкой шкалой, направляющей сжатие на основе структуры траектории, достигается эффективное адаптивное сжатие без тонкой настройки. Результаты показывают, что метод сопоставим или превосходит методы с фиксированным интервалом на задачах по математике и агентскому поиску, улучшая базовые значения на 18,1 пункта по математике и на 5–9 пунктов по поиску, при расходе на 30–70% меньше токенов.

arxiv arXiv cs.CL · 2 д назад

EnterpriseClawBench: Выпущена оценка агентов в реальных условиях

EnterpriseClawBench — это оценка, созданная на основе реальных сессий работы, включающая 852 воспроизводимых задач с подробной метаданными. Наилучшая конфигурация достигает лишь 0,663 (Codex с GPT-5.5), что подчёркивает необходимость многомерной оценки агентов в корпоративной среде.

media r/LocalLLaMA · 2 д назад

Является ли Sakana Fugu просто экспериментом по ИК?

Пост на Reddit спрашивает, является ли Sakana Fugu простым обертыванием оркестра, а не настоящим искусственным интеллектом, предполагая, что он может быть воспринят как убийца мифоса 5 из-за искажающих утверждений. Пост поднимает опасения относительно неверного понимания пользователем его возможностей.

arxiv arXiv cs.CL · 2 д назад

OpenBioRQ: Бенчмарк для верности агентных исследований в биомедицине

OpenBioRQ вводит бенчмарк из 12 553 нерешённых вопросов в области биомедицинских исследований в 12 областях, разработанный для проверки верности и отказа агентных моделей. Он оценивает модели в условиях использования инструментов без ключей ответов, используя реальные доказательства последующих шагов, а не параметрические знания, и показывает значительное падение агентной способности на самые сложные вопросы, где инструменты больше не используются, несмотря на их критическую важность.

arxiv arXiv cs.CL · 2 д назад

Moshi-Face: полудуплексная речевая диалоговая модель с генерацией лиц

Moshi-Face — первая полудуплексная речевая диалоговая модель, которая одновременно обрабатывает аудио и видео лица, генерируя как речь, так и синхронизированные движения лица. Модель использует кодек лица на основе VQ-VAE для кодирования и реконструкции 3D-сеток голов из видео лиц в дискретные токены лиц, и модуль Face Transformer для генерации этих токенов без автобака для получения аудиовизуального вывода в реальном времени. Проведённые эксперименты показывают, что Moshi-Face обеспечивает аудиовизуальную синхронизацию с низкой задержкой, сохраняя при этом исходное качество диалога.

arxiv arXiv cs.CL · 2 д назад

CFAgentBench: Метрика для автономных агентов по строительству и финансам

CFAgentBench представляет воспроизводимую, саморазвертываемую среду с 1014 задачами, подлежащими машинному оцениванию, в восьми областях, основанных на реальных источниках. В ней представлены 40 задач с оракельной проверкой и исполняемыми оценщиками, которые оценивают функциональную корректность с помощью сравнения состояний и регулярных выражений, включая защиту от передачи денег, требующую одобрения человека. Ключевым результатом является то, что лучшие агенты теряют 43% успехов при повторении задач при декодировании с температурой 0, что указывает на то, что производительность при одном попытке не отражает реальную применимость в условиях эксплуатации.

arxiv arXiv cs.CL · 2 д назад

Ноу: Прогнозирующая модель мира для долгосрочной памяти агента

Ноу представляет архитектуру памяти, основанную на прогнозировании, а не на хранении, используя категориальные распределения вероятностей для моделирования знаний о мире. Оценка на LoCoMo с GPT-4o-mini показывает значения F1 равные 63,50 (одношаговый), 55,32 (многошаговый), -58,57 (временной) и 62,50 (открытая область), превосходя A-MEM в трёх категориях и BeliefMem во всех, хотя различия в оценке ограничивают полную сопоставимость.

arxiv arXiv cs.CL · 2 д назад

Оценка искреннего возникающего консенсуса в обществах агентов на основе больших языковых моделей

Новая метрика, сочетающая гамму прироста, измеряет, как агенты корректируют свои мнения при возмущении взглядов соседей. Она показывает, что передовые большие языковые модели не поляризуются спонтанно, и диагностика конечного и начального мнения показывает, что заявленный возникающий консенсус в предыдущих работах включает артефакты моделей. Истинный консенсус возникает только тогда, когда учитывается групповой, модальность-совместимый сопряженный эффект, а не взаимодействие с одним соседом.

arxiv arXiv cs.CL · 2 д назад

PlanBench-XL: Метрика для планирования использования инструментов на длительных горизонтах

PlanBench-XL представляет метрику из 327 розничных задач по 1665 инструментам для оценки способности агентов на основе языковых моделей к итеративному извлечению и использованию инструментов в долгосрочном планировании. В ней включён механизм блокировки, имитирующий сбои инструментов, что показывает, что агенты, такие как GPT-5.4, снижают свою точность с 51,90% до 11,36% при серьёзных сбоях, что подчёркивает уязвимости в восстановлении и адаптации.

arxiv arXiv cs.CL · 2 д назад

VADAOrchestra: нейросимволическая оркестрация адаптивных рабочих потоков

VADAOrchestra представляет нейросимволическую архитектуру, сочетающую оркестрацию потоков на основе больших языковых моделей и синтаксическую логическую инференцию Datalog+/- . Она обеспечивает адаптивное и объяснимое принятие решений за счёт пошагового планирования потоков и выполнения логических инференций по запросу, обеспечивая аудитируемость, масштабируемость и проверяемость в реальных финансовых сценариях.

arxiv arXiv cs.CL · 2 д назад

MacAgentBench запускает бенчмарк AI-агента для macOS

MacAgentBench представляет всесторонний бенчмарк, включающий 676 задач по 25 приложениям, 60% из которых включают взаимодействие как с графическим интерфейсом, так и с командной строкой. Используя детерминированные правилу-ориентированные оценки и оценку с использованием мелких контрольных точек, было установлено, что Claude Opus 4.6 на OpenClaw достигает 73,7% Pass@1, в основном благодаря своей библиотеке навыков, а не архитектуре платформы.

media r/LocalLLaMA · 3 д назад

Серверы MCP расходуют окно контекста через определения инструментов

Каждый сервер MCP экспортирует полный список инструментов в контекст модели до появления запроса, используя до 24 000 токенов для 62 инструментов. Локальный гейтвей, реализующий ленивое открытие, снижает издержки на определения инструментов на 97%, снижая использование токенов с ~24 тыс. до ~660 на запрос, что приводит к 90% меньшему общему количеству токенов за задание, без влияния на успешность выполнения задачи.

arxiv arXiv cs.CL · 3 д назад

LRE: Агентская память на несколько килобайт с нулевыми нейронными затратами

LRE — это система, работающая только на процессоре и не использующая языковую модель, которая обучается определять, какие единицы истории взаимодействия являются несущими. Она превосходит базовые решения по балансу точности и затрат, сокращая пиковый размер контекста на 52% и улучшая выполнение задач на 37% в некоторых случаях. LRE обеспечивает высокое качество ответов при использовании на 68% меньше токенов и не требует аннотаций или нейронных вычислений для обучения.

arxiv arXiv cs.CL · 3 д назад

Beaver: агент-интерфейс для научной кураторской работы из мультимодальных источников

Beaver — это агент-интерфейс, который извлекает структурированную информацию из научных статей за счёт интеграции инструментов мультимодальной поддержки, структурирования задач и автономного поиска на основе артефактов. Он достигает 81,0 по показателю Gold-Referenced Attribute Score, превосходя передовые агенты на более чем 23 балла, с ключевыми достижениями по высокозначимым атрибутам, требующим мультимодального мышления.