Все статьи
media AI News (smol.ai) · 10 д назад

Разрыв и прогресс открытия моделей GLM-5.2

Модель GLM-5.2 от Zhipu стала лучшей открытым весами, похвалена за свою производительность, приближенную к передовым, в повседневном использовании, с улучшением в задачах программирования и сокращением стоимости инференса на 1 млн токенов за счёт IndexShare. Она превзошла другие открытые модели в тестах по агентским задачам, достигнув 1266 Elo в тесте AA-Briefcase от Artificial Analysis, хотя только 3% задач были полностью выполнены лучшими моделями, что указывает на сохраняющиеся трудности в реальных долгосрочных агентских задачах.

lab NVIDIA Technical Blog · 10 д назад

Создайте собственный фундаментальную модель транзакций для финансовой интеллектуальности

Данные транзакций отражают богатые паттерны поведения человека и являются ключевым активом для предприятий. Текущие сценарии использования часто опираются на уязвимые, вручную разработанные признаки, которые не способны отражать последовательное поведение клиентов в истории транзакций.

lab Hugging Face Blog · 10 д назад

Можно ли победить LoRA при мелком настройке?

Новое исследование рассматривает альтернативы LoRA, наиболее популярному методу мелкой настройки, оценивая, могут ли другие подходы обеспечить лучшие результаты с меньшими вычислительными затратами. Исследование показывает, что хотя некоторые подходы показывают перспективы, ни один из них не демонстрирует стабильного превосходства над LoRA при различных задачах и наборах данных.

media AI News (smol.ai) · 10 д назад

GLM-5.2 появляется как ведущая модель открытого веса для кодирования

GLM-5.2 широко считается первой моделью открытого веса, которая конкурирует с передовыми моделями, такими как Opus 4.8 и GPT-5.5, по своим возможностям. Практикующие отмечают сильное использование инструментов, долгосрочное планирование и поведение автономных подагентов, и консенсус о том, что модель теперь действительно функционирует в передовой области SWE. Появление модели подчеркивает растущую ценность открытых весов для конкуренции поставщиков, развертывания на локальных серверах и снижения зависимости от поставщиков.

lab Hugging Face Blog · 10 д назад

MosaicLeaks: Может ли ваш исследовательский агент сохранять секрет?

MosaicLeaks опубликовал отчёт, в котором поднимается вопрос о том, способны ли исследовательские агенты надёжно сохранять конфиденциальность. Отчёт указывает на опасения по поводу раскрытия данных и доверия к ИИ-ориентированным исследовательским инструментам. В нём призывает к более сильным мерам защиты конфиденциальности и прозрачности в том, как такие агенты обрабатывают чувствительную информацию.

lab NVIDIA Technical Blog · 10 д назад

NVIDIA представляет XR AI для AR-окularов и носимых устройств

NVIDIA представляет XR AI для устранения разрыва в инфраструктуре для разработчиков, создающих AI-опыты на AR-окулярных и XR-устройствах. Решение позволяет интегрировать потоки данных с датчиков в реальном времени, многомодальные ИИ-модели и корпоративные данные в специализированные среды выполнения устройств, упрощая разработку ИИ-агентов для носимых устройств.

lab Google DeepMind Blog · 10 д назад

Правительство Великобритании и Google DeepMind запустили прототип планирования жилья на основе искусственного интеллекта

Правительство Великобритании сотрудничает с Google DeepMind для разработки прототипа на основе искусственного интеллекта, направленного на ускорение процесса принятия решений по планированию жилья. Инициатива направлена на упрощение процесса строительства домов за счёт использования искусственного интеллекта для повышения эффективности принятия решений.

lab OpenAI News · 10 д назад

OpenAI запускает контроль расходов и аналитику использования для ChatGPT Enterprise

OpenAI представил новые средства контроля расходов и аналитику использования для ChatGPT Enterprise. Эти функции помогают компаниям управлять расходами и принимать обоснованные решения при масштабировании использования ИИ.

media r/LocalLLaMA · 10 д назад

2× Radeon R9700 с моделью Qwen 3.6 27B Q8 MTP на llama.cpp

Пользователь сообщает о запуске модели Qwen 3.6 27B MTP на двух GPU Radeon R9700 через llama.cpp с использованием ROCm 7.2.1. Проверки показывают стабильные скорости декодирования (40–67 t/s) и пропускную способность предварительной обработки (до 1500 t/s для промптов длиной менее 10 тысяч токенов), при этом коэффициенты принятия проектов MTP варьируются от 0.33 до 0.61.

media r/LocalLLaMA · 10 д назад

Могу ли я реально достичь способностей Клауде/Кодекса локально?

Пользователь с системой на 32 ГБ спрашивает, могут ли открытые модели соответствовать производительности Opus 4.8 в контексте из 1 млн токенов и в кодировании на локальной аппаратной платформе. Он отмечает, что текущие ограничения — это длина контекста и вопросы конфиденциальности, и спрашивает, возможно ли реализовать высококачественные модели, такие как GLM 5.2 или Qwen3.7, в рамках бюджета в 3500 долларов, подчеркивая, что запуск моделей на 70-80 миллиардов параметров даёт минимальные реальные преимущества по сравнению с моделями на 27 миллиардов параметров с контекстом в 256 тысяч токенов.

media r/LocalLLaMA · 10 д назад

ROCm против Vulkan против vLLM по производительности на двойных R9700

Проверки показывают, что vLLM достигает значительно более высоких скоростей генерации на моделях Qwen3.6, при этом модель 35B-A3B достигает скорости 156 t/s с использованием ROCm и AITER. ROCm превосходит Vulkan как по скорости в модели 35B, так и в модели 27B — скорости составляют около 106 t/s и 44 t/s соответственно, в то время как Vulkan достигает около 87 t/s и 41 t/s.

github llama.cpp · 10 д назад

llama.cpp release b9747 добавляет отслеживание загрузки модели в реальном времени и новые бинарные файлы для платформ

Версия llama.cpp b9747 вводит отслеживание прогресса загрузки модели в реальном времени через конечные точки SSE. В этом выпуске представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler, поддерживающие различные архитектуры и технологии ускорения, такие как Vulkan, CUDA, OpenVINO и SYCL.

media r/LocalLLaMA · 10 д назад

Сандбоксирование выполнения кода для агентов ИИ

Разговор о эффективных методах сандбоксирования для агентов ИИ, выполняющих произвольный код, оценка контейнеров Docker, микровМ, WASM и выполнения на уровне хоста. В посте подчеркиваются требования к изоляции, быстрому запуску, контролю доступа к сети и поддержке постоянного файловой системы при выполнении, при этом просится об обмене реализациями и принятых компромиссах.

github llama.cpp · 10 д назад

llama.cpp release b9745 добавляет поддержку MTP3 и бинарники для разных платформ

Версия llama.cpp b9745 вводит поддержку MTP3 шага 3.5/3.7, включая новые API для смещения слоев и флагов nextn. В релизе представлены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler, с возможностью использования ускорения на CPU, Vulkan, CUDA, OpenVINO и SYCL.

media r/LocalLLaMA · 10 д назад

Запуск MiMo-2.5 на двух машинах Halo Strixese

Пользователь сообщает о запуске MiMo-2.5 на двух машинах объёмом 128 ГБ с процессорами Intel 8060, используя контейнеры Proxmox и USB4Net для подключения. Настройка достигает производительности 356pp и 15tg при длине контекста 1% или 10k, однако пользователь сомневается, является ли это достижимой или высококлассной производительностью. Также отмечается сложность сборки vLLM и sglang для потребительских аппаратных средств, при этом vLLM оказывается ненадёжным, а sglang разработан для центров обработки данных, а не для личных систем.

media r/LocalLLaMA · 10 д назад

8-16 MI50s Minimax M3 @19 tps TG (peak)

Локальная модель LLM на 8-16 GPU MI50 достигает пика пропускной способности в 19 токенов в секунду (TPS) для модели Minimax M3. Производительность ограничена длинными логическими выводами и качеством кода, при спекулятивной декодировке показывается коэффициент принятия 50% и высокая задержка, что указывает на проблемы с использованием в задачах агентного программирования.

media r/LocalLLaMA · 10 д назад

Ошибки цикла мышления в OpenCode с локальными моделями

Пользователь сообщает, что OpenCode попадает в бесконечный "цикл мышления" при использовании локальных моделей, постоянно запрашивая себя без завершения. Ошибка возникает при использовании различных моделей и настроек, включая Qwen и GPT-OSS, и сохраняется как в среде llama.cpp, так и в среде LMStudio, хотя чат-окно в LMStudio работает нормально.