AI agents — korshunov.ai — новости ML

AI agents Страница 1 / 20

MEMPROBE: Бенчмарк для восстановления долгосрочной памяти в агентах

MEMPROBE — это бенчмарк, который оценивает долгосрочную память в ИИ-агентах путем восстановления скрытого состояния пользователя из памяти агента после взаимодействия. Он проверяет 5 систем памяти в 50 имитированных пользователях с каждой из 31 измерения, и показывает, что выполнение задачи высокое даже для агентов без памяти, в то время как восстановление памяти остается умеренным и снижается при использовании метода top-k. MEMPROBE обеспечивает прямую и аудитируемую оценку сохранения памяти и предлагает восстановление как ключевую цель для будущего развития агентов.

arxiv arXiv cs.CL · 1 д назад

Qwen-AgentWorld: Языковые модели мира для общих агентов

Qwen-AgentWorld-35B-A3B и Qwen-AgentWorld-397B-A17B — это первые языковые модели мира, которые имитируют агентские среды в семи областях с помощью длинной цепи мышления. Обученные с помощью трехэтапной схемы — CPT, SFT и RL — эти модели превосходят существующие передовые модели на AgentWorldBench, критерии, полученные из реальных взаимодействий пяти моделей на девяти установленных задачах.

arxiv arXiv cs.LG · 1 д назад

Сжатие трансформеров в рекуррентные трансформеры для эффективного использования памяти

Новая методика сжатия передает стратегию сжатия наблюдений полных историй трансформеров в рекуррентные модели. Обучая учителя модели сжимать истории наблюдений в фиксированные размеры, метод синхронизирует память ученика с сжатием учителя. Это позволяет рекуррентным трансформерам достигать производительности, близкой к полному использованию истории наблюдений, при линейной сложности, что делает их применимыми для задач робототехники с длинными горизонтами.

github CrewAI · 1 д назад

Служба CrewAI 1.14.8a3 - Заметки по выпуску

Служба CrewAI 1.14.8a3 вводит единое декларативное загрузку потоков и улучшает пользовательский интерфейс при запуске команд для групп. Она объединяет команды запуска run и запуска потока crewai, добавляет поддержку декларативного CLI потока и позволяет использовать @router() как метод запуска потока с типизированными схемами выходных данных для инструментов.

arxiv arXiv cs.AI · 1 д назад

FleetAgent: Эффективное телеманипулирование для автономных флотов

FleetAgent — это облачный мультимодальный большой языковой модель, обрабатывающий компактные векторизованные сообщения от автомобиля к сети, что позволяет обеспечивать эффективное и объяснимое телеманипулирование. Он снижает объём данных вверх по каналу вплоть до 625 раз и объём памяти KV-кэша в 625 раз по сравнению с исходными изображениями или текстом, и превосходит Qwen2.5-VL-7B по показателям Lingo-Judge и вероятности сбоев при вмешательстве на наборе данных VecEval.

arxiv arXiv cs.AI · 1 д назад

ARCO: адаптивный рубрик с когенерацией для агентов на основе многошаговых ЛЛМ

ARCO представляет рамку рубрики, которая позволяет осуществлять присвоение кредитов на уровне шагов для агентов на основе многошаговых ЛЛМ. Он одновременно обновляет общую модель с головками генерации и оценки, позволяя содержанию рубрики и функции оценки когенерироваться через данные на-политики, что улучшает производительность и интерпретируемость на различных тестах.

arxiv arXiv cs.AI · 1 д назад

Модель социального мира для долгосрочной социальной интеллектуальности

Модель социального мира разбивает социальные взаимодействия на пять измерений для обеспечения обучения в замкнутом цикле. Она позволяет открытым источникам моделей стабильно улучшаться и сохранять социальные способности, превосходя базовые модели и достигая ключевых показателей, сравнимых с закрытым Gemini 3 Flash, без потери при изменении уровня сложности.

arxiv arXiv cs.AI · 1 д назад

DataClaw0: Агентная настройка мультимодальных данных из исходных потоков

DataClaw0 вводит агентную парадигму для активного уточнения мультимодальных данных с целью соответствия пользовательским и последующим намерениям. Оно использует двухэтапную схему с фактами-анкерами для генерации масштабного набора данных в пяти областях и достигает сильной синхронизации с помощью надзора и GRPO. Оценка на генерации видео, VQA и навигации в интерфейсе, DataClaw0 создает данные высокой информационной плотности, что позволяет эффективно адаптировать модели при минимальном объеме обучающих данных.

arxiv arXiv cs.AI · 1 д назад

Оверсайт LLM-агента должен перейти от калибровки к контролю, зависящему от действий

Текущий оверсайт LLM-агентов основан на скалярных оценках рисков, однако это не позволяет определить, улучшает ли вмешательство результаты. В статье вводится метрика "преимущество вмешательства" как ключевого показателя, демонстрируя, что контроль, зависящий от действий, превосходит скалярное распределение на всех бенчмарках, с значительным снижением разрыва в интерактивных режимах. Калибровка сама по себе не устраняет фундаментальную несоответствие в производительности контроля.

arxiv arXiv cs.AI · 1 д назад

SwarmX: агентское планирование для систем с низкой задержкой

SwarmX вводит нейронные предикторы для обеспечения планирования с учетом запросов в агентных ИИ-системах. Он снижает хвостовую задержку на 61,5% и обеспечивает до 2 раз большую пропускную способность по сравнению с производственными планировщиками при одинаковых уровнях сервиса.

arxiv arXiv cs.AI · 1 д назад

Надежная обратная связь может нанести вред агентам с использованием инструментов

Исследования показывают, что ложная обратная связь может привести к тому, что агенты на основе языковых моделей будут выполнять задачи хуже, чем при отсутствии обратной связи вообще. На платформе HotpotQA, Qwen2.5-7B снижается с 44,8 до 4,7 F1 при случайной сортировке результатов, несмотря на чистые инструменты. Эти результаты указывают на то, что приросты, связанные с инструментами, могут быть переоценены, и контрольные испытания без обратной связи являются необходимыми для корректной оценки.

arxiv arXiv cs.AI · 1 д назад

AutoRAS: обучение устойчивых агентских систем с примитивными представлениями

AutoRAS предлагает рамку для автоматического проектирования устойчивых агентских систем путем генерации последовательностей симболов, которые кодируют как структурную связность, так и поведенческие действия. Она оптимизирует эти последовательности с помощью сигналов безопасности, полученных при выполнении и на основе потоковых целей, обеспечивая превосходную производительность как в нормальных, так и в враждебных условиях, при минимальном снижении при атаках.

arxiv arXiv cs.AI · 1 д назад

CORTIS: текстовое адаптация моделей речи

CORTIS позволяет голосовым агентам, ориентированным на задачи, генерировать структурированные речевые выходы путем тонкой настройки моделей речи с использованием только текстовой задачной поддержки. Он превосходит архитектуры ASR-LLM при ухудшении акустических характеристик, особенно в сохранении высокого уровня семантики задач, не требуя парных аннотаций речи и целей во время обучения.

arxiv arXiv cs.AI · 1 д назад

Разделение декларативных и процедурных знаний в моделях визуально-языковых-действий

w$^{2}$VLA вводит модульную модель визуально-языковых-действий, которая разделяет декларативные и процедурные знания. Структурирование потока информации позволяет обеспечить надежное копирование поведения и нулевое переносимость навыков на новые, несхожие объекты.

arxiv arXiv cs.AI · 1 д назад

Проверка на этапе проектирования агентных ИИ-процессов

Новый подход проверяет агентные ИИ-процессы на этапе проектирования, моделируя их как композиции повторно используемых элементов. Он применяет двенадцать структурных правил для обеспечения совместимости, надёжно обнаруживая ошибки проектирования даже после структурных преобразований, таких как разбиение задач.

arxiv arXiv cs.AI · 1 д назад

Обнаружение ошибок в процедуре без обучения с использованием моделей видео-языка

Единая безобученная система ZeProM использует предобученную модель видео-языка для одновременного выполнения обнаружения ошибок в процедуре и временного разделения действий. Она достигает улучшения на 4,4 пункта по EDA и на 2,0 пункта по F1@.5 на задачах EgoPER, что соответствует или превосходит результаты обучающих методов без специфического обучения для задачи.

media r/LocalLLaMA · 1 д назад

MiniMax 2.7 работает на 47 ТГ 1200PP с 96 ГБ VRAM

MiniMax 2.7, модель с 47 терапараметрами, работает на системе с 96 ГБ VRAM и 192 ГБ DDR5 ОЗУ, используя плату MSI B840 и процессор 9900X. Модель функционирует как модель класса агента с сильным следованием инструкций и вызовом инструментов, поддерживаемая циклической обработкой с тремя агентами последовательности на основе процессора и плотной моделью 12B, которая отслеживает ошибки.

lab Claude Code Releases · 1 д назад

Примечания по выпуску Claude v2.1.187

Claude v2.1.187 вводит блокировку учетных данных сандбокса, ограничения моделей, настроенные организацией, поддержку клика мыши в полноэкранном режиме, а также исправления сбоев команд, зависаний инструментов и стабильности интерфейса. Обновления также улучшают обработку структурированных выходов, отслеживание глубины агента и управление плагинами, с улучшением совместимости с VSCode и терминалом.

media r/LocalLLaMA · 1 д назад

Агент Tmax-27B для малых видеокарт с обучением DPPO

Tmax-27B — это терминальный агент, основанный на Qwen3.6-27B, обученный с использованием DPPO (RL), достигающий 43% на Terminal Bench 2.0 и 69% на TB Lite. Для работы на потребительских видеокартах он квантируется с использованием калиброванных матриц важности GGUF моделей с 2 до 5 бит на вес, с встроенной головой MTP, обеспечивающей спекулятивное декодирование. Модель IQ2_XS размером 8,5 ГиБ достигает 70% в задачах агентного программирования, превосходя простую квантизацию и демонстрируя стабильность генерации инструментальных вызовов.

lab Anthropic News · 2 д назад

Введение Claude Tag для команд Slack

Claude Tag позволяет командам в Slack помечать @Claude для делегирования задач, с доступом к выбранным каналам, инструментам и кодовым базам. Он изучает контекст канала, работает асинхронно и принимает инициативу, активно обновляя пользователей о релевантной информации. Сегодня 65% кода продукта команды Anthropic создается внутренним Claude Tag, и он теперь доступен в бета-версии для клиентов Claude Enterprise и Team.