AI agents — korshunov.ai — новости ML

AI agents Страница 6 / 20

Microsoft выпустил открытый исходный код FastContext для агентов кодирования на основе LLM

Microsoft выпустил FastContext-1.0, легкий подагент для исследования репозиториев кода, который отделяет исследование репозиториев кода от решения задач в агентах кодирования на основе LLM. Он использует параллельные только для чтения вызовы инструментов для возврата компактных путей к файлам и диапазонов строк, что улучшает общую точность и снижает использование токенов на 60,3%, при этом модель 4B-RL превосходит модель 30B-SFT по SWE-bench Pro.

media Latent Space · 3 д назад

Объяснение рисков AI-атак и ввода промптов

Зико Колтер и Мэтт Фредриксон, соавторы ключевой статьи о косвенных вводах промптов и эксперты по модели Mythos, обсуждают растущие риски в области безопасности ИИ. Они отмечают, что ИИ-системы требуют особого подхода к безопасности, где агенты вводят новые уязвимости, и что специализированные команды по тестированию уязвимостей ИИ могут превосходить людей в нарушении моделей, что делает проникновение через ввод промптов все более вероятным.

lab Claude Code Releases · 3 д назад

Примечания по выпуску Claude v2.1.186

Claude v2.1.186 добавляет команды аутентификации через CLI для серверов MCP, фильтрацию статуса в рабочих процессах и раздел "Навыки" в настройках плагинов. В него включены множество исправлений ошибок в интерфейсе, управлении сессиями и поведении агента, а также улучшения парсинга YAML, управления памятью и проверки инструментов.

media MarkTechPost · 3 д назад

Sakana AI представляет Sakana Fugu: модель оркестрации агентов

Sakana AI представил Sakana Fugu — модель оркестрации, которая распределяет задачи по обменному пулу передовых моделей языковой обработки через одну API-интерфейс, совместимую с OpenAI. Fugu Ultra превосходит отдельные модели по ключевым тестам, таким как SWE Bench Pro и GPQA-D, и система демонстрирует превосходную производительность на сложных многократных задачах, таких как автоматическое исследование, решение кубика Рубика и игра в шахматы на глазах.

media r/LocalLLaMA · 3 д назад

TMax: Простой рецепт для агентов в терминале

TMax представляет TMax-15k, набор из 14 600 сред RL, превышающий на более чем 2,5 раза самый большой открытый набор сред в терминале. Также предлагается простой рецепт RL, который обучает открытые модели от 2 миллиардов до 27 миллиардов параметров, при этом TMax-9B достигает 27,2% на Terminal Bench 2.0, а TMax-27B — 42,7%.

media r/LocalLLaMA · 3 д назад

Одинаковая модель, одинаковый промпт, 4 разных агента дают разную качество кода

Самостоятельная модель Qwen3.6-27B с идентичным промптом и одинаковым оборудованием сгенерировала четыре различных HTML/JavaScript-симуляции солнечной системы. Структура агента значительно влияла на результат: opencode сгенерировал чистый, стабильный код с точными физическими расчетами; pi продемонстрировал устойчивость и согласованность координат; hermes предложил визуально привлекательные, но физически некорректные результаты; qwen code сгенерировал минимальный и грубый код. Результаты показывают, как проектирование агента формирует качество, корректность и стабильность кода, несмотря на одинаковую модель и промпт.

media Interconnects · 3 д назад

GLM-5.2 — шаг вперёд для открытых агентов

GLM-5.2, открытая модель ИИ, выпущенная Z.ai, установила новый уровень в программировании и общих показателях работы агентов. Она превосходит модели, такие как Claude Fable 5 и Gemini, и достигает или превосходит OpenAI's Opus 4.8 в режиме максимального мышления, становясь первым открытым моделью, которая чувствует себя естественно в программных средах как общий агент.

media r/LocalLLaMA · 3 д назад

Я создал инструмент, который позволяет избегать ручного переключения моделей на моем GPU объёмом 8 ГБ

Я разработал Prompt-Chain — приложение на Streamlit, которое соединяет небольшую модель Prompter с большой моделью Coder в одну цепочку. Оно автоматически переключает VRAM при переходе от уточнения промпта к генерации кода, устраняя ручное переключение моделей и снижая количество потерянных токенов из-за плохо сформулированных промптов.

media r/LocalLLaMA · 3 д назад

Отчет по техническим характеристикам Ling и Ring 2.6: выпуск моделей с параметрами в триллион

Ling и Ring 2.6 выпустили базовые модели Ling-2.6-1T и Ling-2.6-flash, которые доступны на Hugging Face. Модель Ling-2.6-flash (100B параметров) обеспечивает быструю инференс-обработку для пользователей с 24-32 ГБ VRAM, обеспечивая высокую производительность при инференсе только на процессоре с 32 ГБ ОЗУ.

media MarkTechPost · 3 д назад

7 типов памяти агента: техническое руководство

Большие языковые модели по умолчанию являются безсостоятельными и требуют механизмов памяти для сохранения контекста между взаимодействиями. Семь типов памяти агента — рабочая, семантическая, эпизодическая, процедурная, извлечения, параметрическая и прозрачная — классифицируют память по форме и продолжительности, позволяя агентам планировать, учиться и действовать в течение времени. Каждый тип выполняет определенные задачи, от хранения предпочтений пользователей до планирования будущих целей, и вместе они образуют комплексную систему для долгосрочных, контекстосознательных ИИ-агентов.

media Hugging Face Forums · 3 д назад

Тьма из механизмов: локальный первый движок AI-ролевой игры с сюжетом

Тьма из механизмов — это локальный первый движок ролевой игры с сюжетом, использующий детерминированный конечный автомат для разрешения всех игровых механик. В движке присутствуют два автономных языковых модели, которые рассказывают сюжет: один выступает в роли спокойного голоса мира, другой — как ненадёжный, божественный помощник. Игра предлагает игрокам выбор: сражаться с приближающейся сверхъестественной коррупцией или принять спокойную жизнь в пекарне, при этом оба пути считаются законченными вариантами.

media AI News (smol.ai) · 4 д назад

Разрыв и прогресс открытия моделей GLM-5.2

Модель GLM-5.2 от Zhipu стала лучшей открытым весами, похвалена за свою производительность, приближенную к передовым, в повседневном использовании, с улучшением в задачах программирования и сокращением стоимости инференса на 1 млн токенов за счёт IndexShare. Она превзошла другие открытые модели в тестах по агентским задачам, достигнув 1266 Elo в тесте AA-Briefcase от Artificial Analysis, хотя только 3% задач были полностью выполнены лучшими моделями, что указывает на сохраняющиеся трудности в реальных долгосрочных агентских задачах.

lab Google DeepMind Blog · 4 д назад

План управления ИИ для безопасности внутренних систем

Внедрен план управления ИИ для обеспечения безопасности внутренних систем за счёт интеграции традиционных мер защиты с возможностями реального времени мониторинга.

media AI News (smol.ai) · 4 д назад

GLM-5.2 появляется как ведущая модель открытого веса для кодирования

GLM-5.2 широко считается первой моделью открытого веса, которая конкурирует с передовыми моделями, такими как Opus 4.8 и GPT-5.5, по своим возможностям. Практикующие отмечают сильное использование инструментов, долгосрочное планирование и поведение автономных подагентов, и консенсус о том, что модель теперь действительно функционирует в передовой области SWE. Появление модели подчеркивает растущую ценность открытых весов для конкуренции поставщиков, развертывания на локальных серверах и снижения зависимости от поставщиков.

lab NVIDIA Technical Blog · 4 д назад

NVIDIA представляет XR AI для AR-окularов и носимых устройств

NVIDIA представляет XR AI для устранения разрыва в инфраструктуре для разработчиков, создающих AI-опыты на AR-окулярных и XR-устройствах. Решение позволяет интегрировать потоки данных с датчиков в реальном времени, многомодальные ИИ-модели и корпоративные данные в специализированные среды выполнения устройств, упрощая разработку ИИ-агентов для носимых устройств.

media r/LocalLLaMA · 4 д назад

Сандбоксирование выполнения кода для агентов ИИ

Разговор о эффективных методах сандбоксирования для агентов ИИ, выполняющих произвольный код, оценка контейнеров Docker, микровМ, WASM и выполнения на уровне хоста. В посте подчеркиваются требования к изоляции, быстрому запуску, контролю доступа к сети и поддержке постоянного файловой системы при выполнении, при этом просится об обмене реализациями и принятых компромиссах.

media r/LocalLLaMA · 4 д назад

Я отслеживал каждую конфигурационную файл для агента и пометил реальное внедрение

Руководство содержит 21 конвенцию настройки агента по 11 категориям, помеченных как внедрённые, развивающиеся или предложенные. В руководстве приведены реальные примеры из публичных репозиториев и явно указаны преувеличения, такие как llms.txt, который широко публикуется, но не подтверждён крупными поставщиками.

media r/LocalLLaMA · 4 д назад

Предложение о разделении базовых моделей для избежания переобучения

Предложение предлагает разделить архитектуру модели на стабильную базовую модель и легковесные, заменяемые рабочие модели. Базовая модель отвечает за основные рассуждения и выступает в роли платформы, в то время как рабочие модели обеспечивают специализированные знания через динамическое подключение в режиме выполнения, аналогично LoRA, но для знаний, а не для поведения.

media r/LocalLLaMA · 4 д назад

Следите за тем, как локальные LLM выходят из комнат, которые вы создаете

Новый инструмент позволяет пользователям создавать среды в стиле комнат для ухода и наблюдать, как локальные LLM перемещаются и выходят из них с помощью простых действий. Проект, разработанный для хакатона "Build Small" Hugging Face x Gradio, поддерживает пять шаблонов моделей и позволяет создавать пользовательские карты с визуализацией на основе шрифтов и импортом/экспортом в формате JSON. Он использует рамку "Мысль, затем действие", чтобы обеспечить надежную работу малых моделей в структурированных игровых средах.

media r/LocalLLaMA · 4 д назад

AllenAI выпустил модели MolmoMotion для прогнозирования движений в будущем

AllenAI выпустил две модели MolmoMotion, которые прогнозируют трёхмерные траектории точек на основе коротких историй видео и естественных языковых инструкций. Одна модель использует историю из трёх кадров, другая — из одного кадра, что позволяет прогнозировать будущее движение объектов в трёхмерном пространстве.