AI agents
media r/LocalLLaMA · 1 д назад

MiniMax 2.7 работает на 47 ТГ 1200PP с 96 ГБ VRAM

MiniMax 2.7, модель с 47 терапараметрами, работает на системе с 96 ГБ VRAM и 192 ГБ DDR5 ОЗУ, используя плату MSI B840 и процессор 9900X. Модель функционирует как модель класса агента с сильным следованием инструкций и вызовом инструментов, поддерживаемая циклической обработкой с тремя агентами последовательности на основе процессора и плотной моделью 12B, которая отслеживает ошибки.

lab Claude Code Releases · 1 д назад

Примечания по выпуску Claude v2.1.187

Claude v2.1.187 вводит блокировку учетных данных сандбокса, ограничения моделей, настроенные организацией, поддержку клика мыши в полноэкранном режиме, а также исправления сбоев команд, зависаний инструментов и стабильности интерфейса. Обновления также улучшают обработку структурированных выходов, отслеживание глубины агента и управление плагинами, с улучшением совместимости с VSCode и терминалом.

media r/LocalLLaMA · 1 д назад

Агент Tmax-27B для малых видеокарт с обучением DPPO

Tmax-27B — это терминальный агент, основанный на Qwen3.6-27B, обученный с использованием DPPO (RL), достигающий 43% на Terminal Bench 2.0 и 69% на TB Lite. Для работы на потребительских видеокартах он квантируется с использованием калиброванных матриц важности GGUF моделей с 2 до 5 бит на вес, с встроенной головой MTP, обеспечивающей спекулятивное декодирование. Модель IQ2_XS размером 8,5 ГиБ достигает 70% в задачах агентного программирования, превосходя простую квантизацию и демонстрируя стабильность генерации инструментальных вызовов.

lab Anthropic News · 2 д назад

Введение Claude Tag для команд Slack

Claude Tag позволяет командам в Slack помечать @Claude для делегирования задач, с доступом к выбранным каналам, инструментам и кодовым базам. Он изучает контекст канала, работает асинхронно и принимает инициативу, активно обновляя пользователей о релевантной информации. Сегодня 65% кода продукта команды Anthropic создается внутренним Claude Tag, и он теперь доступен в бета-версии для клиентов Claude Enterprise и Team.

media r/LocalLLaMA · 2 д назад

Используемые рабочие процессы для длительных локальных моделей языковой обработки

Hayden разработал удерживающий механизм knot для управления длительными локальными задачами моделей языковой обработки. Он обеспечивает повторно используемые рабочие процессы с профилями агентов, мониторингом событий файловой системы и автоматическими триггерами, используя Pi.dev как стандартного агента.

media r/LocalLLaMA · 2 д назад

Лучшие локальные модели для рассуждений в агентной ИИ

Создатель EverFern спрашивает, какие локальные модели лучше всего подходят для агентных рабочих процессов и использования в браузере или на компьютере. Он отмечает, что интеллект модели редко является ограничивающим фактором, и что надежность и системы восстановления важнее, чем выбор модели.

media r/LocalLLaMA · 2 д назад

SFT или RL-первый для обучения агента Qwen 3.5 с использованием инструментов?

Пользователь спрашивает, рекомендуется ли все еще последовательное применение надзирательного мелкого настройки (SFT) за которым следует обучение с помощью реверсной связи (RL), для обучения агентов Qwen 3.5 4B или 9B для многократного использования инструментов, или же более эффективны подходы на основе только RL. В посте также ищется руководство по проектированию вознаграждения и обработке параллельного выполнения инструментов в рабочих процессах агентов.

arxiv arXiv cs.CL · 2 д назад

Групповая графовая оптимизация политики для долгосрочной агентной RL

Групповая графовая оптимизация политики (G2PO) вводит графовый подход для улучшения долгосрочной агентной реверсной обучения, преобразуя взаимодействия в траектории в графы состояний-переходов. Она позволяет осуществлять групповую агрегацию оценки состояния и вычисление преимуществ на основе рёбер, улучшая присвоение кредитов и снижая дисперсию, и достигает улучшения показателя успешности до 22,2% по сравнению с GRPO на бенчмарках WebShop, ALFWorld и AppWorld.

arxiv arXiv cs.CL · 2 д назад

PhoneBuddy: Обучение открытых моделей для агентного использования телефона

PhoneBuddy объединяет реальные и имитационные среды приложений для обучения открытых моделей для использования телефона. Он повышает показатели успешного выполнения задач с 36,67% до 45,33% на реальных телефонах и с 60,3% до 83,2% на AndroidWorld, что показывает, что обучение в имитационной среде дополняет, но не заменяет обучение в реальных приложениях на основе релей-обучения.

arxiv arXiv cs.CL · 2 д назад

Саморазвитие агентов, использующих инструменты, через обучение предпочтений в точках разрыва

ToolGraph повышает эффективность агентов, использующих инструменты в многоходовых сессиях, интегрируя схему топологии, веса переходов и контроль, учитывающий историю. Обучение с DPO на 161 паре предпочтений в точках разрыва улучшает производительность: ToolGraph+DPO достигает роста награды на 16,8% по сравнению с базовой версией, особенно в задачах авиационного и розничного сектора, где появление положительных наград выступает ключевым диагностическим сигналом.

arxiv arXiv cs.CL · 2 д назад

AFTER оценивает память о процедурах в агентах на основе ЛЛМ

AFTER представляет бенчмарк из 382 задач предприятий по шести ролям и 22 навыкам для оценки передачи навыков между задачами, ролями и моделями. Результаты показывают, что память о процедурах повышает производительность на 3,7–6,7 баллов за каждую итерацию и достигает точности 73,1% между моделями, при этом некоторые навыки обобщаются широко, а другие специализируются на рабочих процессах конкретных ролей.

lab Hugging Face Blog · 2 д назад

Создание реальных агентных приложений с CUGA: 24 рабочих примера

CUGA вводит легкий интерфейс, позволяющий разработчикам создавать реальные агентные приложения. В нем содержится 24 рабочих примера, демонстрирующих практическое применение в различных сценариях использования.

arxiv arXiv cs.CL · 2 д назад

AgentCIBench оценивает риски приватности в агентах, использующих компьютер

AgentCIBench представляет бенчмарк для оценки рисков приватности в агентах, использующих компьютер. Он выявляет три ключевых режима сбоев — визуальная совместная локация, избыточное раскрытие при неясных задачах и несоответствие получателя — и показывает, что 11 из 15 оцененных агентов раскрывают персональные данные в более чем 50% сценариев, при среднем уровне утечки 67,9%.

arxiv arXiv cs.CL · 2 д назад

Tmax: Простая рецептура RL для агентов-конечных

Tmax представляет наиболее сильную открытую рецептуру для агентов-конечных, достигая 27% на Terminal-Bench 2.0 с использованием только 9B параметров. Он использует новую классификацию данных для генерации более чем на 2,5 раза больше окончательных сред, что позволяет эффективно обучать с простой рецептурой, ориентированной только на результат. Данные, модели и код доступны на GitHub по адресу https://github.com/hamishivi/tmax.

arxiv arXiv cs.CL · 2 д назад

SelfCompact: Самодвижущийся сжатие контекста для языковых моделей

SelfCompact позволяет языковым моделям самостоятельно решать, когда и как сжимать накопленный контекст во время рассуждений. Сочетая инструмент сжатия, вызываемый моделью, с лёгкой шкалой, направляющей сжатие на основе структуры траектории, достигается эффективное адаптивное сжатие без тонкой настройки. Результаты показывают, что метод сопоставим или превосходит методы с фиксированным интервалом на задачах по математике и агентскому поиску, улучшая базовые значения на 18,1 пункта по математике и на 5–9 пунктов по поиску, при расходе на 30–70% меньше токенов.

arxiv arXiv cs.CL · 2 д назад

EnterpriseClawBench: Выпущена оценка агентов в реальных условиях

EnterpriseClawBench — это оценка, созданная на основе реальных сессий работы, включающая 852 воспроизводимых задач с подробной метаданными. Наилучшая конфигурация достигает лишь 0,663 (Codex с GPT-5.5), что подчёркивает необходимость многомерной оценки агентов в корпоративной среде.

media r/LocalLLaMA · 2 д назад

Является ли Sakana Fugu просто экспериментом по ИК?

Пост на Reddit спрашивает, является ли Sakana Fugu простым обертыванием оркестра, а не настоящим искусственным интеллектом, предполагая, что он может быть воспринят как убийца мифоса 5 из-за искажающих утверждений. Пост поднимает опасения относительно неверного понимания пользователем его возможностей.

arxiv arXiv cs.CL · 2 д назад

OpenBioRQ: Бенчмарк для верности агентных исследований в биомедицине

OpenBioRQ вводит бенчмарк из 12 553 нерешённых вопросов в области биомедицинских исследований в 12 областях, разработанный для проверки верности и отказа агентных моделей. Он оценивает модели в условиях использования инструментов без ключей ответов, используя реальные доказательства последующих шагов, а не параметрические знания, и показывает значительное падение агентной способности на самые сложные вопросы, где инструменты больше не используются, несмотря на их критическую важность.

arxiv arXiv cs.CL · 2 д назад

Moshi-Face: полудуплексная речевая диалоговая модель с генерацией лиц

Moshi-Face — первая полудуплексная речевая диалоговая модель, которая одновременно обрабатывает аудио и видео лица, генерируя как речь, так и синхронизированные движения лица. Модель использует кодек лица на основе VQ-VAE для кодирования и реконструкции 3D-сеток голов из видео лиц в дискретные токены лиц, и модуль Face Transformer для генерации этих токенов без автобака для получения аудиовизуального вывода в реальном времени. Проведённые эксперименты показывают, что Moshi-Face обеспечивает аудиовизуальную синхронизацию с низкой задержкой, сохраняя при этом исходное качество диалога.

arxiv arXiv cs.CL · 2 д назад

CFAgentBench: Метрика для автономных агентов по строительству и финансам

CFAgentBench представляет воспроизводимую, саморазвертываемую среду с 1014 задачами, подлежащими машинному оцениванию, в восьми областях, основанных на реальных источниках. В ней представлены 40 задач с оракельной проверкой и исполняемыми оценщиками, которые оценивают функциональную корректность с помощью сравнения состояний и регулярных выражений, включая защиту от передачи денег, требующую одобрения человека. Ключевым результатом является то, что лучшие агенты теряют 43% успехов при повторении задач при декодировании с температурой 0, что указывает на то, что производительность при одном попытке не отражает реальную применимость в условиях эксплуатации.