Inference efficiency
media r/LocalLLaMA · 4 д назад

Бесплатная серия из 15 частей о внутренних аспектах LLM, основанных на Gemma 4 12B

Я написал бесплатную серию из 15 частей, в которой подробно описывается внутренняя структура LLM, используя Gemma 4 12B в качестве основного примера. Каждая часть охватывает технические аспекты от токенизации до предоставления сервиса, с реальными математическими вычислениями, формами тензоров и ограничениями аппаратного обеспечения. Серия включает в себя дополнительный разбор vLLM и полностью доступна без платных стен или требований на электронную почту.

github llama.cpp · 4 д назад

Исправление случайных сбоев в test-args-parser на Windows

Патч устраняет случайные сбои в тесте test-args-parser на Windows, изменяя перекрытие argv так, чтобы применяться только при совпадении argc, предотвращая перезапись программных аргументов. Это устраняет сбой быстрого отказа в рабочем процессе OpenVINO на Windows, при этом сохраняя обработку UTF-8 для реальных исполняемых файлов.

media r/LocalLLaMA · 5 д назад

Теперь вы можете конвертировать квантованные модели EXL3 на Mac с процессором Apple Silicon

Пользователи теперь могут конвертировать и запускать квантованные модели EXL3 на Mac с процессором Apple Silicon и объёмом памяти 64 ГБ и более. Проверки показывают, что модели, такие как MiniCPM5 и Qwen3.6-27B, достигают производительности, сравнимой с или немного ниже производительности при конвертации на картах RTX, при этом EXL3 обеспечивает более высокое качество квантования по сравнению с MLX.

media r/LocalLLaMA · 5 д назад

Написанное на листке бумаги математика по совокупным расходам на хостинг diffusiongemma в 2026 году

Анализ затрат показывает, что хостинг diffusiongemma при различных уровнях токенов пользователей приводит к ежемесячным расходам на пользователя от 1,7 евро до 122,8 евро. Исследование показывает, что использование агентного ИИ экономически нецелесообразно для совместного хостинга, хотя расходы могут снизиться при появлении новых GPU или ASIC и сокращении срока износа GPU.

github llama.cpp · 5 д назад

llama.cpp release b9738: fixes CORS auth header forwarding and new binary builds

llama.cpp version b9738 исправляет прокси CORS для предотвращения передачи аутентификационных заголовков. В выпуске представлены бинарные сборки для macOS, Linux, Android, Windows и openEuler на разных архитектурах и вариантах ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.

github llama.cpp · 5 д назад

ggml оптимизирует AMX с помощью плоской обработки разделов

Проект ggml повысил производительность AMX за счёт плоской обработки разделов по n_batch * M, обеспечивая участие всех потоков в квантовании. Данное изменение обеспечивает ускорение на 1,47 раза при различных моделях и конфигурациях аппаратуры на платформах CPU и GPU, при этом результаты демонстрируют стабильное сокращение времени инференса.

github llama.cpp · 5 д назад

Исправление индексатора DSA для GLM-5.2: тензоры помечены как не требуемые

Индексатор DSA для модели GLM-5.2 неправильно загружался на всех слоях, что приводило к сбоям из-за отсутствия тензоров. В обновлении тензоры индексатора помечаются как TENSOR_NOT_REQUIRED, что позволяет слоям без индексатора загружать как nullptr, обеспечивая полную работу внимания MLA. Модель DeepSeek-V3.2, имеющая единое индексирование, не затронута.

media r/LocalLLaMA · 5 д назад

Наилучшие настройки для 48 ГБ ОЗУ с Qwen 3.6 27B

Пользователь делится оптимизированными настройками для запуска Qwen 3.6 27B с квантованием Q8_0 на системе RTX 4090 и RTX 3090 с использованием llama.cpp. Конфигурация включает разбиение тензоров, 999 слоев на GPU, контекст длиной 250k, спекулятивное декодирование и единый кэш КВ, что обеспечивает пропускную способность 75-100t/s с поддержкой визуальных данных и MTP.

media r/LocalLLaMA · 5 д назад

7900XTX 24GB VRAM Runs Qwen 3.6 27B с 131k Context

Пользователь сообщает о успешном запуске модели Qwen 3.6 27B с квантованием Q6K+MTP и длиной контекста 131k на видеокарте 7900XTX с 24 ГБ VRAM. Это достигается с помощью квантования kvcache (Q5_0/Q4_0), что снижает использование VRAM на 12% по сравнению с Q8, позволяя модели работать со скоростью 55-60 токенов в секунду при использовании специальных флагов компиляции и аргументов llama.cpp.

media r/LocalLLaMA · 5 д назад

GLM 5.2 достигает 98% максимальной интеллекта с менее чем половиной токенов

Согласно техническому отчету z_ai, модель GLM 5.2 демонстрирует 98% максимального интеллекта в задачах программирования, используя менее половины своего общего бюджета токенов. Эффективность логического мышления модели значительно улучшилась: количество токенов увеличилось с 16,7 к до 36,7 к при переходе от GLM 5.1 к GLM 5.2, хотя настройки высокого уровня могут негативно сказаться на производительности локальных аппаратных средств.

media r/LocalLLaMA · 5 д назад

результаты оценок llama.cpp B70 с использованием SYCL

Оценки показывают, что llama.cpp B70 с использованием бэкенда SYCL хорошо справляется с моделями, такими как gemma4 12B и 26B, достигая пропускной способности до 5662,45 t/s для модели E2B. Производительность значительно падает в режиме tg128, при этом модель qwen35 27B достигает лишь 15,42 t/s, что указывает на необходимость оптимизации.

media r/LocalLLaMA · 5 д назад

Локальный агент на 4090 - поиск настроек LM Studio

Пользователь сообщает о медленной генерации токенов при запуске локального агента на видеокарте 4090 с 24 ГБ ОЗУ, несмотря на настройку параметров контекста и батчинга. Он отмечает, что Gemma4 работает быстрее, но генерирует неверные токены, такие как </tool_call>, и ищет рекомендованные настройки и объяснения параметров, таких как top_p и top_k.

media r/LocalLLaMA · 5 д назад

RTX 5090 MSI потребление энергии и предупреждение о кабеле

RTX 5090 MSI потребляет 475-500 Вт во время инференса или тренировки диффузии. Пользователь отмечает, что не испытывает проблем с кабелем питания, подчеркивая, что его не следует изгибать для обеспечения безопасной и стабильной работы.

github llama.cpp · 5 д назад

ggml-webgpu Добавляет переключатели адаптера для поддержки F16 на Vulkan и NVIDIA

Проект ggml-webgpu добавил переключатели адаптера для поддержки полупrecision (F16) на видеокартах Vulkan и NVIDIA. Обновление позволяет повысить производительность на совместимом оборудовании на нескольких платформах, включая macOS, Linux, Android, Windows и openEuler, с конкретными сборками для архитектур ARM и x64.

media r/LocalLLaMA · 5 д назад

Стоимость в $1800 GPU позволяет запустить Qwen3.6-27B с контекстом в 262K и скоростью 55 ток/с

Настройка, использующая четыре видеокарты 5060 Ti (итого $1800), обеспечивает скорость 55 токенов в секунду при использовании Qwen3.6-27B-FP8, поддерживая длину контекста 262K и кэш KV в формате bfloat16. Конфигурация использует P2P и FlashInfer, при этом результаты тестирования показывают пропускную способность 55,67 токенов на выход и процент принятия спекулятивного декодирования в 65,25%.

github llama.cpp · 5 д назад

llama.cpp Release b9731: Оптимизация производительности и бинарники для нескольких платформ

Версия llama.cpp b9731 вводит оптимизацию с использованием std::partial_sort для снижения расходов на сортировку токенов, что позволяет повысить производительность с 8,555 мс до 0,704 мс при выборе токенов top-n. В этом выпуске представлены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и вариантах ускорения аппаратного обеспечения.

media r/LocalLLaMA · 5 д назад

Помощь в запуске локального агента Hermes с использованием llama-cpp

Пользователь сообщает о проблемах при запуске локального агента AI Hermes на высокопроизводительной системе с использованием самокомпилированной версии llama-cpp. Настройка испытывает частое переработку кэша KV каждые 5 сообщений и медленное мышление, при этом агент постоянно останавливается, чтобы сообщить о прогрессе, вместо того чтобы продолжать работу автономно. Пользователь ищет руководство по тому, правильно ли настроены параметры llama-cpp, или какие настройки могут улучшить производительность агента и обеспечить стабильное мышление без прерываний.

media r/LocalLLaMA · 5 д назад

Максимизация производительности двух 3090 с использованием NVLink

Пользователь сообщает о достижении только 60 токенов в секунду в кратковременных всплесках и средней скорости 40-45 TPS при запуске модели Qwen 3.6 27B с квантованием Q8_0 на двух видеокартах GeForce 3090, соединенных через NVLink. Настройка включает Ubuntu 24.04, Ryzen 7950x3D и 64 ГБ DDR5, с видеовыводом, подключенным через eGPU.

github llama.cpp · 5 д назад

Релиз LLaMA.cpp b9729: Новые бинарники и поддержка платформ

LLaMA.cpp выпускает версию b9729 с бинарниками для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах. В релизе включены поддержка CPU, Vulkan, OpenVINO, SYCL и ROCm, а также новый пакет интерфейса. Удалены внутренние ссылки на 'webui'.