AI agents
arxiv arXiv cs.CL · 7 д назад

Оптимизация генеративной системы: измерение видимости AI в поиске

Масштабное исследование более 100 000 ответов на запросы ИИ по 100+ брендам выявило трёхуровневую лестницу видимости брендов: глобальные бренды появляются в 73% ответов, средние бренды — в 44%, а узкоспециализированные бренды — лишь в 11%. Генеративные системы в основном цитируют корпоративные веб-сайты, YouTube является лидером среди некорпоративных источников, а лучшие обзоры и списки составляют 21% всех цитирований. Оценка настроения в упоминаниях брендов нестабильна и меняется в шесть раз чаще, чем просто упоминание.

arxiv arXiv cs.CL · 7 д назад

Адаптивное обучение с помощью LLM повышает вовлеченность и эффективность

Новая адаптивная система обучения с помощью LLM использует поддержку тематических запросов для повышения вовлеченности студентов. Она превосходит статические модели в симуляциях и реальных тестах A/B, снижая количество взаимодействий на 3 шага и увеличивая конверсию упражнений, особенно при использовании стохастического роутера, достигая 28,1%.

arxiv arXiv cs.CL · 7 д назад

MedRLM: Рекурсивная мультимодальная интеллектуальная система здравоохранения

MedRLs обеспечивает долгосрочное клиническое мышление за счёт рекурсивного анализа данных пациента в тексте, изображениях, сенсорах и руководствах. Оно интегрирует специализированные агенты и граф памяти клинических доказательств для связи наблюдений за пациентом с доказательствами, биомаркерами и критериями реферирования, поддерживая сенсорное триггирование и ревью клиницистов с учётом неопределённости.

media r/LocalLLaMA · 7 д назад

GLM-5.2 превосходит GPT-5.5 в оценке AA-Briefcase

Новая оценка агентных задач искусственного анализа, AA-Briefcase, показывает, что GLM-5.2 превосходит GPT-5.5 по производительности. Оценка оценивает выполнение реальных задач и способность к логическому мышлению в сценариях работы с знаниями.

github LangGraph · 7 д назад

langgraph выпускает версию 1.2.6

LangGraph выпускает версию 1.2.6, исправляя регрессию, при которой вложенные подграфы неправильно наследуют checkpoint_ns родительского графа. Обновление также улучшает отмену выполняющихся подграфов при прерывании потока и включает обновление CLI до версии 0.4.30.

media r/LocalLLaMA · 7 д назад

Локальная Qwen не хуже Opus, это инструмент с другими возможностями

В статье утверждается, что Local Qwen не уступает Opus, а служит другой цели. Автор подчеркивает, что каждый модель разработан для конкретных задач, и прямое сравнение моделей игнорирует их разные возможности и предназначенные области применения.

media r/LocalLLaMA · 7 д назад

Калибровка 2-битных GGUF для задач агентного программирования

2-битные квантованные версии Qwopus3.6-27B-Coder, калиброванные на реальных журналах агентного программирования, достигают 63% успешного прохождения на SWE-rebench. Версия IQ2_M превосходит некалиброванные версии и соперничает с Q5_K_M по показателю успешного прохождения, несмотря на то, что она вдвое меньше, с улучшенной устойчивостью к циклам и более быстрой декодировкой благодаря объединенному MTP.

media r/LocalLLaMA · 7 д назад

Laguna M.1: 225B параметр модель MoE для агентного кодирования

Laguna M.1 — это модель с 225B параметрами и 23B активными параметрами на каждый токен, разработанная для агентного кодирования и задач с длинным горизонтом. Она достигает конкурентоспособных результатов на SWE-bench Verified (74,6%), SWE-bench Multilingual (63,1%) и Terminal-Bench 2.0 (45,8%), превосходя модели, такие как Devstral 2 и GLM-4.7, на ключевых тестах.

media r/LocalLLaMA · 7 д назад

Мой робот-сумка получает эффект от реального датчика газа

Реальный датчик газа MQ-2 обнаруживает дым и передает живые данные в LLM-сэмплер, корректируя температуру, top_p и top_k в реальном времени. По мере увеличения дыма речь робота становится более цикличной и ассоциативной, без заранее скриптового режима 'пьяного', демонстрируя живое поведение модели, вызванное физическим вводом.

media r/LocalLLaMA · 7 д назад

mistral.rs v0.8.10 добавляет поддержку /v1/skills для локальных моделей

mistral.rs v0.8.10 вводит открытую совместимую с OpenAI функцию агентов навыков через конечную точку /v1/skills, позволяющую локальным моделям выполнять инструкции и скрипты в определённых областях без зависимости от API frontier. Обновление поддерживает инструменты, такие как загрузка и скачивание файлов через /v1/files, и включает предварительно скомпилированные бинарники для Linux, macOS и Windows.

media r/LocalLLaMA · 7 д назад

SLMs и диффузии: Будущее малых, специализированных моделей?

Пользователи обсуждают, может ли задачеспецифичная малая языковая модель (SLM) превосходить более крупные модели в определённых задачах, приводя примеры бенчмарков, где модели на 9 миллиардов параметров достигают или превосходят более крупные. Они предлагают последовательный агентский поток, использующий несколько специализированных моделей, при этом одна координирует, а другие проверяют ответы, предполагая, что диффузионные модели могут ускорять такие потоки, несмотря на снижение интеллекта.

media r/LocalLLaMA · 7 д назад

Мощь интеллекта лучше лежит в руках людей, чем в кабинетах магнатов

Проект PearlOS запустил открытую платформу для распределённого интеллекта, которая использует локальные модели для выполнения многомодальных задач. Она автоматически выбирает и переключается между наиболее эффективными моделями на основе критериев оценки, обеспечивая пользователям постоянный доступ к самым новым и наиболее мощным моделям, не завися от закрытых систем или подписок.

media r/LocalLLaMA · 7 д назад

Локальный агент LLM теперь генерирует изображения и видео в автономном режиме

Пользователь поделился тем, что их локальный агент LLM оснащен инструментами MCP для прямого генерирования изображений и видео. Система работает полностью автономно и является бесплатной для использования, подробности и исходный код доступны в комментариях.

media r/LocalLLaMA · 7 д назад

Запуск Keye-VL-2.0-30B-A3B с продвинутыми возможностями понимания видео и функциями агента

Keye-VL-2.0-30B-A3B — это мультимодальный модель с 30 миллиардами параметров, разработанный для понимания длинных видео и функционирования агента. Она превосходит открытые конкурентов и достигает уровня Gemini-3-Flash в временной фиксации, поддерживает до 256K контекста с почти безпотерьным рассуждением и включает встроенные возможности для агентов по коду, инструментам и поиску в интернете.

github AutoGPT · 7 д назад

Релиз autogpt-platform-beta-v0.6.64

Релиз autogpt-platform-beta-v0.6.64, датированной 18 июня 2026 года, вводит новые функции, такие как панель AutoPilot и глобальный поиск, а также улучшения в сохранении графов, кэшировании и производительности конструктора. В нём также содержатся меры по усилению безопасности, устранение ошибок в работе поставщиков LLM и улучшения интерфейса, включая высокоразрешающую иконку для сенсорного управления.

github CrewAI · 7 д назад

CrewAI v1.14.8a выпустил новые функции FlowDefinition

CrewAI v1.14.8a вводит скрипты и действия команды в FlowDefinition, добавляет поддержку режима DMN и позволяет выполнять потоки без кода на Python. Также включены экспериментальные возможности для команд на основе JSON и отказоустойчивое развертывание через ZIP, а также улучшена работа с памятью и отслеживание использования токенов.

arxiv arXiv cs.LG · 7 д назад

TxBench-PP: производительность ИИ-агента в преследовании фармакологии

TxBench-PP — это проверяемый бенчмарк для преследования фармакологии маломолекул, проверяющий способность ИИ-агентов делать точные выводы на основе реальных данных о пробах. В 16 конфигурациях моделей-инструментов ни одна система не демонстрировала надежную способность принимать правильные решения в области преследования фармакологии, лучшая производительность составила 59,3% (Claude Opus 4.8 / Pi) и 55,3% (GPT-5.5 / Pi) по попыткам достижения конечных результатов.

arxiv arXiv cs.LG · 7 д назад

Act2Answer оценивает сохранение знаний в моделях визуально-языковых-действий

Act2Answer вводит лёгкий протокол для оценки сохранения общеупотребимых и мировых знаний в моделях визуально-языковых-действий (VLA), требуя от агентов отвечать на вопросы через действия размещения объектов. Большой масштабный анализ 7 моделей VLA и 9 базовых моделей VLM показывает, что VLAs хорошо справляются с простыми концепциями, но демонстрируют большие разрывы в богатых семантических категориях по сравнению с их исходными моделями VLM, при этом обучение с помощью VQA улучшает сохранение знаний, а наиболее яркие сигналы, связанные с правильным ответом, наблюдаются в средних слоях VLA.

arxiv arXiv cs.LG · 7 д назад

Разбор внимания трансформера с помощью исполняемых программ

Новый метод использует синтез программ для генерации программ на языке Python, которые воссоздают паттерны внимания в моделях трансформеров. Такие программы достигают среднего значения пересечения по объединению более 75% на отложенных данных и могут заменить до 25% голов внимания с минимальным влиянием на производительность модели, увеличивая перплексность в среднем на 16%.

arxiv arXiv cs.AI · 7 д назад

Пользователь как энгра: локальные параметрические редакции для личной памяти

Пользователь как энгра предлагает хранить факты по каждому пользователю в виде хирургических, хеш-ключевых редакций в таблице памяти, оставляя процесс мышления в общем адаптере. Такой подход обеспечивает на 5,6 раза более высокую точность косвенного мышления и сохраняет базовую производительность мышления, при этом объем памяти на 33 000 раз меньше, чем при использовании LoRA по каждому пользователю. Метод позволяет выполнять раздельные редакции пользователей, которые составляются без потерь, превосходя ретриевные потоки при более чем 100 фактах.