Inference efficiency
github llama.cpp · 6 д назад

llama.cpp release b9738: fixes CORS auth header forwarding and new binary builds

llama.cpp version b9738 исправляет прокси CORS для предотвращения передачи аутентификационных заголовков. В выпуске представлены бинарные сборки для macOS, Linux, Android, Windows и openEuler на разных архитектурах и вариантах ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.

github llama.cpp · 6 д назад

ggml оптимизирует AMX с помощью плоской обработки разделов

Проект ggml повысил производительность AMX за счёт плоской обработки разделов по n_batch * M, обеспечивая участие всех потоков в квантовании. Данное изменение обеспечивает ускорение на 1,47 раза при различных моделях и конфигурациях аппаратуры на платформах CPU и GPU, при этом результаты демонстрируют стабильное сокращение времени инференса.

github llama.cpp · 6 д назад

Исправление индексатора DSA для GLM-5.2: тензоры помечены как не требуемые

Индексатор DSA для модели GLM-5.2 неправильно загружался на всех слоях, что приводило к сбоям из-за отсутствия тензоров. В обновлении тензоры индексатора помечаются как TENSOR_NOT_REQUIRED, что позволяет слоям без индексатора загружать как nullptr, обеспечивая полную работу внимания MLA. Модель DeepSeek-V3.2, имеющая единое индексирование, не затронута.

media r/LocalLLaMA · 6 д назад

Наилучшие настройки для 48 ГБ ОЗУ с Qwen 3.6 27B

Пользователь делится оптимизированными настройками для запуска Qwen 3.6 27B с квантованием Q8_0 на системе RTX 4090 и RTX 3090 с использованием llama.cpp. Конфигурация включает разбиение тензоров, 999 слоев на GPU, контекст длиной 250k, спекулятивное декодирование и единый кэш КВ, что обеспечивает пропускную способность 75-100t/s с поддержкой визуальных данных и MTP.

media r/LocalLLaMA · 6 д назад

7900XTX 24GB VRAM Runs Qwen 3.6 27B с 131k Context

Пользователь сообщает о успешном запуске модели Qwen 3.6 27B с квантованием Q6K+MTP и длиной контекста 131k на видеокарте 7900XTX с 24 ГБ VRAM. Это достигается с помощью квантования kvcache (Q5_0/Q4_0), что снижает использование VRAM на 12% по сравнению с Q8, позволяя модели работать со скоростью 55-60 токенов в секунду при использовании специальных флагов компиляции и аргументов llama.cpp.

media r/LocalLLaMA · 6 д назад

GLM 5.2 достигает 98% максимальной интеллекта с менее чем половиной токенов

Согласно техническому отчету z_ai, модель GLM 5.2 демонстрирует 98% максимального интеллекта в задачах программирования, используя менее половины своего общего бюджета токенов. Эффективность логического мышления модели значительно улучшилась: количество токенов увеличилось с 16,7 к до 36,7 к при переходе от GLM 5.1 к GLM 5.2, хотя настройки высокого уровня могут негативно сказаться на производительности локальных аппаратных средств.

media r/LocalLLaMA · 6 д назад

результаты оценок llama.cpp B70 с использованием SYCL

Оценки показывают, что llama.cpp B70 с использованием бэкенда SYCL хорошо справляется с моделями, такими как gemma4 12B и 26B, достигая пропускной способности до 5662,45 t/s для модели E2B. Производительность значительно падает в режиме tg128, при этом модель qwen35 27B достигает лишь 15,42 t/s, что указывает на необходимость оптимизации.

media r/LocalLLaMA · 6 д назад

Локальный агент на 4090 - поиск настроек LM Studio

Пользователь сообщает о медленной генерации токенов при запуске локального агента на видеокарте 4090 с 24 ГБ ОЗУ, несмотря на настройку параметров контекста и батчинга. Он отмечает, что Gemma4 работает быстрее, но генерирует неверные токены, такие как </tool_call>, и ищет рекомендованные настройки и объяснения параметров, таких как top_p и top_k.

media r/LocalLLaMA · 6 д назад

RTX 5090 MSI потребление энергии и предупреждение о кабеле

RTX 5090 MSI потребляет 475-500 Вт во время инференса или тренировки диффузии. Пользователь отмечает, что не испытывает проблем с кабелем питания, подчеркивая, что его не следует изгибать для обеспечения безопасной и стабильной работы.

github llama.cpp · 6 д назад

ggml-webgpu Добавляет переключатели адаптера для поддержки F16 на Vulkan и NVIDIA

Проект ggml-webgpu добавил переключатели адаптера для поддержки полупrecision (F16) на видеокартах Vulkan и NVIDIA. Обновление позволяет повысить производительность на совместимом оборудовании на нескольких платформах, включая macOS, Linux, Android, Windows и openEuler, с конкретными сборками для архитектур ARM и x64.

media r/LocalLLaMA · 6 д назад

Стоимость в $1800 GPU позволяет запустить Qwen3.6-27B с контекстом в 262K и скоростью 55 ток/с

Настройка, использующая четыре видеокарты 5060 Ti (итого $1800), обеспечивает скорость 55 токенов в секунду при использовании Qwen3.6-27B-FP8, поддерживая длину контекста 262K и кэш KV в формате bfloat16. Конфигурация использует P2P и FlashInfer, при этом результаты тестирования показывают пропускную способность 55,67 токенов на выход и процент принятия спекулятивного декодирования в 65,25%.

github llama.cpp · 6 д назад

llama.cpp Release b9731: Оптимизация производительности и бинарники для нескольких платформ

Версия llama.cpp b9731 вводит оптимизацию с использованием std::partial_sort для снижения расходов на сортировку токенов, что позволяет повысить производительность с 8,555 мс до 0,704 мс при выборе токенов top-n. В этом выпуске представлены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах ускорения аппаратного обеспечения.

media r/LocalLLaMA · 6 д назад

Помощь в запуске локального агента Hermes с использованием llama-cpp

Пользователь сообщает о проблемах при запуске локального агента AI Hermes на высокопроизводительной системе с использованием самокомпилированной версии llama-cpp. Настройка испытывает частое переработку кэша KV каждые 5 сообщений и медленное мышление, при этом агент постоянно останавливается, чтобы сообщить о прогрессе, вместо того чтобы продолжать работу автономно. Пользователь ищет руководство по тому, правильно ли настроены параметры llama-cpp, или какие настройки могут улучшить производительность агента и обеспечить стабильное мышление без прерываний.

media r/LocalLLaMA · 6 д назад

Максимизация производительности двух 3090 с использованием NVLink

Пользователь сообщает о достижении только 60 токенов в секунду в кратковременных всплесках и средней скорости 40-45 TPS при запуске модели Qwen 3.6 27B с квантованием Q8_0 на двух видеокартах GeForce 3090, соединенных через NVLink. Настройка включает Ubuntu 24.04, Ryzen 7950x3D и 64 ГБ DDR5, с видеовыводом, подключенным через eGPU.

github llama.cpp · 6 д назад

Релиз LLaMA.cpp b9729: Новые бинарники и поддержка платформ

LLaMA.cpp выпускает версию b9729 с бинарниками для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах. В релизе включены поддержка CPU, Vulkan, OpenVINO, SYCL и ROCm, а также новый пакет интерфейса. Удалены внутренние ссылки на 'webui'.

media r/LocalLLaMA · 6 д назад

Как настроить оптимальные параметры llama.cpp для моделей gemma 4 на GPU от AMD

Пользователи, ищущие оптимальные настройки llama.cpp для моделей gemma 4 на GPU от AMD с 16 ГБ ОЗУ, спрашивают, необходима ли проба и ошибка. Они приводят стандартные настройки Google для температуры, top-p и top-k, но отмечают непостоянные результаты, что указывает на необходимость более целенаправленных рекомендаций, выходящих за рамки официальной документации.

media r/LocalLLaMA · 6 д назад

Устранение проблемы с длительными контекстами при декодировании на Radeon R9700 с использованием vLLM 0.22.1

Проблема с производительностью при длительных контекстах на AMD Radeon AI PRO R9700 (RDNA4) была решена в vLLM 0.22.1 путем включения AITER Unified Attention. Исправление включает ослабление гейта CDNA для включения RDNA4, отключение других реализаций внимания и использование KV-кэша в формате bf16, что обеспечивает значительное ускорение при всех длинах контекста. Использование FP8 на этом оборудовании неэффективно, а нативный контекст модели в размере 262K полностью достижим при использовании bf16, обеспечивая ~2.9× параллелизм без необходимости использования FP8.

github llama.cpp · 6 д назад

Релиз LLaMA.cpp b9728 добавляет поддержку строк комментариев и бинарные файлы для нескольких платформ

Версия LLaMA.cpp b9728 вводит поддержку строк комментариев в конфигурации --api-key-file. В релизе представлены предварительно скомпилированные бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах аппаратного ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.

media r/LocalLLaMA · 6 д назад

Лучший кейс для поиска в интернете

Пользователи отмечают, что инструменты, такие как LM Studio и Odysseus, ограничены количеством запросов к поисковым системам, часто в размере 10 в день или в час, без доступа к API. Они предлагают создавать аккаунты в DuckDuckGo API для лучшего доступа к поиску, но отмечают, что фронтенды редко просят об этом. В посте задаётся вопрос о том, предлагают ли Hermes или Pi улучшенные решения.

media r/LocalLLaMA · 6 д назад

Я слишком слабый CPU и RAM для локальных LLM?

Пользователь сообщает, что его CPU и RAM достигают 100% при простых тестовых запросах, в то время как GPU не используется. Он спрашивает, возможно ли запустить Quen3.5:9b локально на его RTX 3050 8GB GPU, отметив, что теоретически это должно быть возможно.