Все статьи
lab NVIDIA Technical Blog · 11 д назад

Создайте собственный фундаментальную модель транзакций для финансовой интеллектуальности

Данные транзакций отражают богатые паттерны поведения человека и являются ключевым активом для предприятий. Текущие сценарии использования часто опираются на уязвимые, вручную разработанные признаки, которые не способны отражать последовательное поведение клиентов в истории транзакций.

lab Hugging Face Blog · 11 д назад

MosaicLeaks: Может ли ваш исследовательский агент сохранять секрет?

MosaicLeaks опубликовал отчёт, в котором поднимается вопрос о том, способны ли исследовательские агенты надёжно сохранять конфиденциальность. Отчёт указывает на опасения по поводу раскрытия данных и доверия к ИИ-ориентированным исследовательским инструментам. В нём призывает к более сильным мерам защиты конфиденциальности и прозрачности в том, как такие агенты обрабатывают чувствительную информацию.

lab NVIDIA Technical Blog · 11 д назад

NVIDIA представляет XR AI для AR-окularов и носимых устройств

NVIDIA представляет XR AI для устранения разрыва в инфраструктуре для разработчиков, создающих AI-опыты на AR-окулярных и XR-устройствах. Решение позволяет интегрировать потоки данных с датчиков в реальном времени, многомодальные ИИ-модели и корпоративные данные в специализированные среды выполнения устройств, упрощая разработку ИИ-агентов для носимых устройств.

lab Google DeepMind Blog · 11 д назад

Правительство Великобритании и Google DeepMind запустили прототип планирования жилья на основе искусственного интеллекта

Правительство Великобритании сотрудничает с Google DeepMind для разработки прототипа на основе искусственного интеллекта, направленного на ускорение процесса принятия решений по планированию жилья. Инициатива направлена на упрощение процесса строительства домов за счёт использования искусственного интеллекта для повышения эффективности принятия решений.

lab OpenAI News · 11 д назад

OpenAI запускает контроль расходов и аналитику использования для ChatGPT Enterprise

OpenAI представил новые средства контроля расходов и аналитику использования для ChatGPT Enterprise. Эти функции помогают компаниям управлять расходами и принимать обоснованные решения при масштабировании использования ИИ.

media r/LocalLLaMA · 11 д назад

2× Radeon R9700 с моделью Qwen 3.6 27B Q8 MTP на llama.cpp

Пользователь сообщает о запуске модели Qwen 3.6 27B MTP на двух GPU Radeon R9700 через llama.cpp с использованием ROCm 7.2.1. Проверки показывают стабильные скорости декодирования (40–67 t/s) и пропускную способность предварительной обработки (до 1500 t/s для промптов длиной менее 10 тысяч токенов), при этом коэффициенты принятия проектов MTP варьируются от 0.33 до 0.61.

media r/LocalLLaMA · 11 д назад

Могу ли я реально достичь способностей Клауде/Кодекса локально?

Пользователь с системой на 32 ГБ спрашивает, могут ли открытые модели соответствовать производительности Opus 4.8 в контексте из 1 млн токенов и в кодировании на локальной аппаратной платформе. Он отмечает, что текущие ограничения — это длина контекста и вопросы конфиденциальности, и спрашивает, возможно ли реализовать высококачественные модели, такие как GLM 5.2 или Qwen3.7, в рамках бюджета в 3500 долларов, подчеркивая, что запуск моделей на 70-80 миллиардов параметров даёт минимальные реальные преимущества по сравнению с моделями на 27 миллиардов параметров с контекстом в 256 тысяч токенов.

media r/LocalLLaMA · 11 д назад

ROCm против Vulkan против vLLM по производительности на двойных R9700

Проверки показывают, что vLLM достигает значительно более высоких скоростей генерации на моделях Qwen3.6, при этом модель 35B-A3B достигает скорости 156 t/s с использованием ROCm и AITER. ROCm превосходит Vulkan как по скорости в модели 35B, так и в модели 27B — скорости составляют около 106 t/s и 44 t/s соответственно, в то время как Vulkan достигает около 87 t/s и 41 t/s.

github llama.cpp · 11 д назад

llama.cpp release b9747 добавляет отслеживание загрузки модели в реальном времени и новые бинарные файлы для платформ

Версия llama.cpp b9747 вводит отслеживание прогресса загрузки модели в реальном времени через конечные точки SSE. В этом выпуске представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler, поддерживающие различные архитектуры и технологии ускорения, такие как Vulkan, CUDA, OpenVINO и SYCL.

media r/LocalLLaMA · 11 д назад

Сандбоксирование выполнения кода для агентов ИИ

Разговор о эффективных методах сандбоксирования для агентов ИИ, выполняющих произвольный код, оценка контейнеров Docker, микровМ, WASM и выполнения на уровне хоста. В посте подчеркиваются требования к изоляции, быстрому запуску, контролю доступа к сети и поддержке постоянного файловой системы при выполнении, при этом просится об обмене реализациями и принятых компромиссах.

github llama.cpp · 11 д назад

llama.cpp release b9745 добавляет поддержку MTP3 и бинарники для разных платформ

Версия llama.cpp b9745 вводит поддержку MTP3 шага 3.5/3.7, включая новые API для смещения слоев и флагов nextn. В релизе представлены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler, с возможностью использования ускорения на CPU, Vulkan, CUDA, OpenVINO и SYCL.

media r/LocalLLaMA · 11 д назад

Запуск MiMo-2.5 на двух машинах Halo Strixese

Пользователь сообщает о запуске MiMo-2.5 на двух машинах объёмом 128 ГБ с процессорами Intel 8060, используя контейнеры Proxmox и USB4Net для подключения. Настройка достигает производительности 356pp и 15tg при длине контекста 1% или 10k, однако пользователь сомневается, является ли это достижимой или высококлассной производительностью. Также отмечается сложность сборки vLLM и sglang для потребительских аппаратных средств, при этом vLLM оказывается ненадёжным, а sglang разработан для центров обработки данных, а не для личных систем.

media r/LocalLLaMA · 11 д назад

8-16 MI50s Minimax M3 @19 tps TG (peak)

Локальная модель LLM на 8-16 GPU MI50 достигает пика пропускной способности в 19 токенов в секунду (TPS) для модели Minimax M3. Производительность ограничена длинными логическими выводами и качеством кода, при спекулятивной декодировке показывается коэффициент принятия 50% и высокая задержка, что указывает на проблемы с использованием в задачах агентного программирования.

media r/LocalLLaMA · 11 д назад

Ошибки цикла мышления в OpenCode с локальными моделями

Пользователь сообщает, что OpenCode попадает в бесконечный "цикл мышления" при использовании локальных моделей, постоянно запрашивая себя без завершения. Ошибка возникает при использовании различных моделей и настроек, включая Qwen и GPT-OSS, и сохраняется как в среде llama.cpp, так и в среде LMStudio, хотя чат-окно в LMStudio работает нормально.

media r/LocalLLaMA · 11 д назад

Проблемы с производительностью GPU R9700 при использовании vLLM и настройке нескольких GPU

Пользователь сообщает о серьезных проблемах с производительностью двух GPU AMD R9700, которые не могут запускаться с использованием vLLM при тензорной параллелизации (tp=2) из-за ошибок NCCL. Производительность одиночного GPU при инференсе крайне низка — 30 tps для модели Qwen 0.6B и только 5 tps для модели 27B INT4 AWQ, несмотря на правильную установку ROCm и настройку системы.

media r/LocalLLaMA · 11 д назад

Почему AutoRound так сильно игнорируется?

AutoRound значительно превосходит стандартные AWQ и RTN по перплексити и точности, особенно в сложных задачах рассуждения и длинных контекстах. Он по умолчанию экспортируется в GGUF, избегая проблем с преобразованием, и работает на любой конфигурации PyTorch, однако всё же остаётся малоиспользуемым, несмотря на эти преимущества.