Все статьи
lab Google DeepMind Blog · 10 д назад

Правительство Великобритании и Google DeepMind запустили прототип планирования жилья на основе искусственного интеллекта

Правительство Великобритании сотрудничает с Google DeepMind для разработки прототипа на основе искусственного интеллекта, направленного на ускорение процесса принятия решений по планированию жилья. Инициатива направлена на упрощение процесса строительства домов за счёт использования искусственного интеллекта для повышения эффективности принятия решений.

lab OpenAI News · 10 д назад

OpenAI запускает контроль расходов и аналитику использования для ChatGPT Enterprise

OpenAI представил новые средства контроля расходов и аналитику использования для ChatGPT Enterprise. Эти функции помогают компаниям управлять расходами и принимать обоснованные решения при масштабировании использования ИИ.

media r/LocalLLaMA · 10 д назад

2× Radeon R9700 с моделью Qwen 3.6 27B Q8 MTP на llama.cpp

Пользователь сообщает о запуске модели Qwen 3.6 27B MTP на двух GPU Radeon R9700 через llama.cpp с использованием ROCm 7.2.1. Проверки показывают стабильные скорости декодирования (40–67 t/s) и пропускную способность предварительной обработки (до 1500 t/s для промптов длиной менее 10 тысяч токенов), при этом коэффициенты принятия проектов MTP варьируются от 0.33 до 0.61.

media r/LocalLLaMA · 10 д назад

Могу ли я реально достичь способностей Клауде/Кодекса локально?

Пользователь с системой на 32 ГБ спрашивает, могут ли открытые модели соответствовать производительности Opus 4.8 в контексте из 1 млн токенов и в кодировании на локальной аппаратной платформе. Он отмечает, что текущие ограничения — это длина контекста и вопросы конфиденциальности, и спрашивает, возможно ли реализовать высококачественные модели, такие как GLM 5.2 или Qwen3.7, в рамках бюджета в 3500 долларов, подчеркивая, что запуск моделей на 70-80 миллиардов параметров даёт минимальные реальные преимущества по сравнению с моделями на 27 миллиардов параметров с контекстом в 256 тысяч токенов.

media r/LocalLLaMA · 10 д назад

ROCm против Vulkan против vLLM по производительности на двойных R9700

Проверки показывают, что vLLM достигает значительно более высоких скоростей генерации на моделях Qwen3.6, при этом модель 35B-A3B достигает скорости 156 t/s с использованием ROCm и AITER. ROCm превосходит Vulkan как по скорости в модели 35B, так и в модели 27B — скорости составляют около 106 t/s и 44 t/s соответственно, в то время как Vulkan достигает около 87 t/s и 41 t/s.

github llama.cpp · 10 д назад

llama.cpp release b9747 добавляет отслеживание загрузки модели в реальном времени и новые бинарные файлы для платформ

Версия llama.cpp b9747 вводит отслеживание прогресса загрузки модели в реальном времени через конечные точки SSE. В этом выпуске представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler, поддерживающие различные архитектуры и технологии ускорения, такие как Vulkan, CUDA, OpenVINO и SYCL.

media r/LocalLLaMA · 10 д назад

Сандбоксирование выполнения кода для агентов ИИ

Разговор о эффективных методах сандбоксирования для агентов ИИ, выполняющих произвольный код, оценка контейнеров Docker, микровМ, WASM и выполнения на уровне хоста. В посте подчеркиваются требования к изоляции, быстрому запуску, контролю доступа к сети и поддержке постоянного файловой системы при выполнении, при этом просится об обмене реализациями и принятых компромиссах.

github llama.cpp · 10 д назад

llama.cpp release b9745 добавляет поддержку MTP3 и бинарники для разных платформ

Версия llama.cpp b9745 вводит поддержку MTP3 шага 3.5/3.7, включая новые API для смещения слоев и флагов nextn. В релизе представлены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler, с возможностью использования ускорения на CPU, Vulkan, CUDA, OpenVINO и SYCL.

media r/LocalLLaMA · 10 д назад

Запуск MiMo-2.5 на двух машинах Halo Strixese

Пользователь сообщает о запуске MiMo-2.5 на двух машинах объёмом 128 ГБ с процессорами Intel 8060, используя контейнеры Proxmox и USB4Net для подключения. Настройка достигает производительности 356pp и 15tg при длине контекста 1% или 10k, однако пользователь сомневается, является ли это достижимой или высококлассной производительностью. Также отмечается сложность сборки vLLM и sglang для потребительских аппаратных средств, при этом vLLM оказывается ненадёжным, а sglang разработан для центров обработки данных, а не для личных систем.

media r/LocalLLaMA · 10 д назад

8-16 MI50s Minimax M3 @19 tps TG (peak)

Локальная модель LLM на 8-16 GPU MI50 достигает пика пропускной способности в 19 токенов в секунду (TPS) для модели Minimax M3. Производительность ограничена длинными логическими выводами и качеством кода, при спекулятивной декодировке показывается коэффициент принятия 50% и высокая задержка, что указывает на проблемы с использованием в задачах агентного программирования.

media r/LocalLLaMA · 10 д назад

Ошибки цикла мышления в OpenCode с локальными моделями

Пользователь сообщает, что OpenCode попадает в бесконечный "цикл мышления" при использовании локальных моделей, постоянно запрашивая себя без завершения. Ошибка возникает при использовании различных моделей и настроек, включая Qwen и GPT-OSS, и сохраняется как в среде llama.cpp, так и в среде LMStudio, хотя чат-окно в LMStudio работает нормально.

media r/LocalLLaMA · 10 д назад

Проблемы с производительностью GPU R9700 при использовании vLLM и настройке нескольких GPU

Пользователь сообщает о серьезных проблемах с производительностью двух GPU AMD R9700, которые не могут запускаться с использованием vLLM при тензорной параллелизации (tp=2) из-за ошибок NCCL. Производительность одиночного GPU при инференсе крайне низка — 30 tps для модели Qwen 0.6B и только 5 tps для модели 27B INT4 AWQ, несмотря на правильную установку ROCm и настройку системы.

media r/LocalLLaMA · 10 д назад

Почему AutoRound так сильно игнорируется?

AutoRound значительно превосходит стандартные AWQ и RTN по перплексити и точности, особенно в сложных задачах рассуждения и длинных контекстах. Он по умолчанию экспортируется в GGUF, избегая проблем с преобразованием, и работает на любой конфигурации PyTorch, однако всё же остаётся малоиспользуемым, несмотря на эти преимущества.

media r/LocalLLaMA · 10 д назад

Я отслеживал каждую конфигурационную файл для агента и пометил реальное внедрение

Руководство содержит 21 конвенцию настройки агента по 11 категориям, помеченных как внедрённые, развивающиеся или предложенные. В руководстве приведены реальные примеры из публичных репозиториев и явно указаны преувеличения, такие как llms.txt, который широко публикуется, но не подтверждён крупными поставщиками.

media r/LocalLLaMA · 10 д назад

Предложение о разделении базовых моделей для избежания переобучения

Предложение предлагает разделить архитектуру модели на стабильную базовую модель и легковесные, заменяемые рабочие модели. Базовая модель отвечает за основные рассуждения и выступает в роли платформы, в то время как рабочие модели обеспечивают специализированные знания через динамическое подключение в режиме выполнения, аналогично LoRA, но для знаний, а не для поведения.

media r/LocalLLaMA · 10 д назад

Следите за тем, как локальные LLM выходят из комнат, которые вы создаете

Новый инструмент позволяет пользователям создавать среды в стиле комнат для ухода и наблюдать, как локальные LLM перемещаются и выходят из них с помощью простых действий. Проект, разработанный для хакатона "Build Small" Hugging Face x Gradio, поддерживает пять шаблонов моделей и позволяет создавать пользовательские карты с визуализацией на основе шрифтов и импортом/экспортом в формате JSON. Он использует рамку "Мысль, затем действие", чтобы обеспечить надежную работу малых моделей в структурированных игровых средах.