AI agents
arxiv arXiv cs.CL · 2 д назад

VADAOrchestra: нейросимволическая оркестрация адаптивных рабочих потоков

VADAOrchestra представляет нейросимволическую архитектуру, сочетающую оркестрацию потоков на основе больших языковых моделей и синтаксическую логическую инференцию Datalog+/- . Она обеспечивает адаптивное и объяснимое принятие решений за счёт пошагового планирования потоков и выполнения логических инференций по запросу, обеспечивая аудитируемость, масштабируемость и проверяемость в реальных финансовых сценариях.

arxiv arXiv cs.CL · 2 д назад

MacAgentBench запускает бенчмарк AI-агента для macOS

MacAgentBench представляет всесторонний бенчмарк, включающий 676 задач по 25 приложениям, 60% из которых включают взаимодействие как с графическим интерфейсом, так и с командной строкой. Используя детерминированные правилу-ориентированные оценки и оценку с использованием мелких контрольных точек, было установлено, что Claude Opus 4.6 на OpenClaw достигает 73,7% Pass@1, в основном благодаря своей библиотеке навыков, а не архитектуре платформы.

media r/LocalLLaMA · 2 д назад

Серверы MCP расходуют окно контекста через определения инструментов

Каждый сервер MCP экспортирует полный список инструментов в контекст модели до появления запроса, используя до 24 000 токенов для 62 инструментов. Локальный гейтвей, реализующий ленивое открытие, снижает издержки на определения инструментов на 97%, снижая использование токенов с ~24 тыс. до ~660 на запрос, что приводит к 90% меньшему общему количеству токенов за задание, без влияния на успешность выполнения задачи.

arxiv arXiv cs.CL · 2 д назад

LRE: Агентская память на несколько килобайт с нулевыми нейронными затратами

LRE — это система, работающая только на процессоре и не использующая языковую модель, которая обучается определять, какие единицы истории взаимодействия являются несущими. Она превосходит базовые решения по балансу точности и затрат, сокращая пиковый размер контекста на 52% и улучшая выполнение задач на 37% в некоторых случаях. LRE обеспечивает высокое качество ответов при использовании на 68% меньше токенов и не требует аннотаций или нейронных вычислений для обучения.

arxiv arXiv cs.CL · 2 д назад

Beaver: агент-интерфейс для научной кураторской работы из мультимодальных источников

Beaver — это агент-интерфейс, который извлекает структурированную информацию из научных статей за счёт интеграции инструментов мультимодальной поддержки, структурирования задач и автономного поиска на основе артефактов. Он достигает 81,0 по показателю Gold-Referenced Attribute Score, превосходя передовые агенты на более чем 23 балла, с ключевыми достижениями по высокозначимым атрибутам, требующим мультимодального мышления.

arxiv arXiv cs.CL · 2 д назад

AdaMem: обучение того, что нужно запоминать, для персонализированных агентов на долгосрочной горизонте LLM

AdaMem обучает, что нужно запоминать для каждого пользователя на основе обратной связи, что снижает избыточность памяти и повышает точность ответов на вопросы на 9,0% по сравнению с базовыми моделями с равномерным запоминанием, при этом сокращая объём памяти на 9%.

arxiv arXiv cs.CL · 2 д назад

Dementia-Agents: Мультимодальный мультимодальный системный подход к стадированию деменции

Dementia-Agents представляет клинически согласованный мультимодальный фреймворк для стадирования и фенотипирования деменции в реальных условиях. Он повышает диагностическую производительность по сравнению с монолитными моделями и предыдущими системами, при сохранении уровня интерпретируемости на уровне области, используя данные из 1066 пациентов двух когнитивных неврологических служб.

arxiv arXiv cs.CL · 2 д назад

ARCO: адаптивный рубрикатор с когерентным развитием для агентов на основе многократных LLM

ARCO представляет рамку рубрики, которая позволяет осуществлять присвоение кредитов на уровне шагов для агентов на основе многократных LLM. Он одновременно обновляет общий модель с головками генерации и оценки, позволяя содержанию рубрики и функции оценки когерентно развиваться за счёт данных на-политики, что улучшает производительность и интерпретируемость на различных тестовых наборах.

media r/LocalLLaMA · 2 д назад

Microsoft выпустил открытый исходный код FastContext для агентов кодирования на основе LLM

Microsoft выпустил FastContext-1.0, легкий подагент для исследования репозиториев кода, который отделяет исследование репозиториев кода от решения задач в агентах кодирования на основе LLM. Он использует параллельные только для чтения вызовы инструментов для возврата компактных путей к файлам и диапазонов строк, что улучшает общую точность и снижает использование токенов на 60,3%, при этом модель 4B-RL превосходит модель 30B-SFT по SWE-bench Pro.

media Latent Space · 2 д назад

Объяснение рисков AI-атак и ввода промптов

Зико Колтер и Мэтт Фредриксон, соавторы ключевой статьи о косвенных вводах промптов и эксперты по модели Mythos, обсуждают растущие риски в области безопасности ИИ. Они отмечают, что ИИ-системы требуют особого подхода к безопасности, где агенты вводят новые уязвимости, и что специализированные команды по тестированию уязвимостей ИИ могут превосходить людей в нарушении моделей, что делает проникновение через ввод промптов все более вероятным.

lab Claude Code Releases · 2 д назад

Примечания по выпуску Claude v2.1.186

Claude v2.1.186 добавляет команды аутентификации через CLI для серверов MCP, фильтрацию статуса в рабочих процессах и раздел "Навыки" в настройках плагинов. В него включены множество исправлений ошибок в интерфейсе, управлении сессиями и поведении агента, а также улучшения парсинга YAML, управления памятью и проверки инструментов.

media MarkTechPost · 2 д назад

Sakana AI представляет Sakana Fugu: модель оркестрации агентов

Sakana AI представил Sakana Fugu — модель оркестрации, которая распределяет задачи по обменному пулу передовых моделей языковой обработки через одну API-интерфейс, совместимую с OpenAI. Fugu Ultra превосходит отдельные модели по ключевым тестам, таким как SWE Bench Pro и GPQA-D, и система демонстрирует превосходную производительность на сложных многократных задачах, таких как автоматическое исследование, решение кубика Рубика и игра в шахматы на глазах.

media r/LocalLLaMA · 3 д назад

TMax: Простой рецепт для агентов в терминале

TMax представляет TMax-15k, набор из 14 600 сред RL, превышающий на более чем 2,5 раза самый большой открытый набор сред в терминале. Также предлагается простой рецепт RL, который обучает открытые модели от 2 миллиардов до 27 миллиардов параметров, при этом TMax-9B достигает 27,2% на Terminal Bench 2.0, а TMax-27B — 42,7%.

media r/LocalLLaMA · 3 д назад

Одинаковая модель, одинаковый промпт, 4 разных агента дают разную качество кода

Самостоятельная модель Qwen3.6-27B с идентичным промптом и одинаковым оборудованием сгенерировала четыре различных HTML/JavaScript-симуляции солнечной системы. Структура агента значительно влияла на результат: opencode сгенерировал чистый, стабильный код с точными физическими расчетами; pi продемонстрировал устойчивость и согласованность координат; hermes предложил визуально привлекательные, но физически некорректные результаты; qwen code сгенерировал минимальный и грубый код. Результаты показывают, как проектирование агента формирует качество, корректность и стабильность кода, несмотря на одинаковую модель и промпт.

media Interconnects · 3 д назад

GLM-5.2 — шаг вперёд для открытых агентов

GLM-5.2, открытая модель ИИ, выпущенная Z.ai, установила новый уровень в программировании и общих показателях работы агентов. Она превосходит модели, такие как Claude Fable 5 и Gemini, и достигает или превосходит OpenAI's Opus 4.8 в режиме максимального мышления, становясь первым открытым моделью, которая чувствует себя естественно в программных средах как общий агент.

media r/LocalLLaMA · 3 д назад

Я создал инструмент, который позволяет избегать ручного переключения моделей на моем GPU объёмом 8 ГБ

Я разработал Prompt-Chain — приложение на Streamlit, которое соединяет небольшую модель Prompter с большой моделью Coder в одну цепочку. Оно автоматически переключает VRAM при переходе от уточнения промпта к генерации кода, устраняя ручное переключение моделей и снижая количество потерянных токенов из-за плохо сформулированных промптов.

media r/LocalLLaMA · 3 д назад

Отчет по техническим характеристикам Ling и Ring 2.6: выпуск моделей с параметрами в триллион

Ling и Ring 2.6 выпустили базовые модели Ling-2.6-1T и Ling-2.6-flash, которые доступны на Hugging Face. Модель Ling-2.6-flash (100B параметров) обеспечивает быструю инференс-обработку для пользователей с 24-32 ГБ VRAM, обеспечивая высокую производительность при инференсе только на процессоре с 32 ГБ ОЗУ.

media MarkTechPost · 3 д назад

7 типов памяти агента: техническое руководство

Большие языковые модели по умолчанию являются безсостоятельными и требуют механизмов памяти для сохранения контекста между взаимодействиями. Семь типов памяти агента — рабочая, семантическая, эпизодическая, процедурная, извлечения, параметрическая и прозрачная — классифицируют память по форме и продолжительности, позволяя агентам планировать, учиться и действовать в течение времени. Каждый тип выполняет определенные задачи, от хранения предпочтений пользователей до планирования будущих целей, и вместе они образуют комплексную систему для долгосрочных, контекстосознательных ИИ-агентов.

media Hugging Face Forums · 3 д назад

Тьма из механизмов: локальный первый движок AI-ролевой игры с сюжетом

Тьма из механизмов — это локальный первый движок ролевой игры с сюжетом, использующий детерминированный конечный автомат для разрешения всех игровых механик. В движке присутствуют два автономных языковых модели, которые рассказывают сюжет: один выступает в роли спокойного голоса мира, другой — как ненадёжный, божественный помощник. Игра предлагает игрокам выбор: сражаться с приближающейся сверхъестественной коррупцией или принять спокойную жизнь в пекарне, при этом оба пути считаются законченными вариантами.

media AI News (smol.ai) · 4 д назад

Разрыв и прогресс открытия моделей GLM-5.2

Модель GLM-5.2 от Zhipu стала лучшей открытым весами, похвалена за свою производительность, приближенную к передовым, в повседневном использовании, с улучшением в задачах программирования и сокращением стоимости инференса на 1 млн токенов за счёт IndexShare. Она превзошла другие открытые модели в тестах по агентским задачам, достигнув 1266 Elo в тесте AA-Briefcase от Artificial Analysis, хотя только 3% задач были полностью выполнены лучшими моделями, что указывает на сохраняющиеся трудности в реальных долгосрочных агентских задачах.