Inference efficiency — korshunov.ai

Inference efficiency Страница 1 / 10

CCCL Runtime: Современный C++ runtime для CUDA

NVIDIA выпустил CCCL Runtime, современный C++ runtime, который обеспечивает более безопасные и удобные абстракции для программирования CUDA. Он вводит обновленные функции C++ для упрощения и улучшения разработки CUDA C++.

lab NVIDIA Technical Blog · 4 д назад

Включить реальное время ИИ для высокоскоростного сбора данных с помощью DAQIRI

Успех AlphaFold2 в 2020 году зависел от 170 000 структур белков из Базы данных белков. Система DAQIRI от Nvidia позволяет выполнять реальное время обработку ИИ для высокоскоростного сбора данных, анализируя данные при их генерации.

media r/LocalLLaMA · 4 д назад

Проверка скорости GLM-5.2 UD-IQ1_M на llama.cpp с 5090 и 3090 Ti

Проверка скорости GLM-5.2, квантованной до UD-IQ1_M, с использованием llama.cpp показывает 579 t/s при предзаполнении на 8k контексте и 324 t/s при 57k контексте. Скорость декодирования остается стабильной на уровне 10.6 t/s более чем на 580 токенов, снижаясь до 9.37 t/s при 60k контексте.

media r/LocalLLaMA · 4 д назад

Qwen3.6-35B-A3B APEX на RTX 3090: сравнительные показатели скорости и качества

Бенчмарк сравнивает форки llama.cpp (ik_llama и spiritbuun), работающие с моделью Qwen3.6-35B-A3B APEX в режимах I-Compact и I-Quality. ik_llama с I-Compact достигает максимальной скорости (~146 TPS), в то время как spiritbuun с I-Quality и кэшем turbo8/turbo4 достигает такой же скорости и обеспечивает немного лучшие показатели по HellaSwag. Кэши turbo8/turbo4 превосходят q8_0/q5_0, особенно при длинных контекстах, обеспечивая до 15% роста скорости и меньшую величину KLD, что делает их превосходными для качества и длины контекста.

media MarkTechPost · 4 д назад

MoonMath AI опубликовал открытый исходный код ядра приставки внимания HIP, которое превосходит AITER v3 на MI300X

MoonMath AI опубликовал ядро прямого внимания в формате bf16 для графического процессора MI300X от AMD, написанное на языке HIP, а не на ассемблере. Оно превосходит ядро AITER v3 от AMD по всем проверенным форматам и режимам округления, обеспечивая ускорение до 1,26 раза, и сохраняет бит-точную числовую точность.

media Hugging Face Forums · 4 д назад

Я создал новую тройную гибридную модель языковой модели с менее чем 1 миллиард параметров за ~$50

Mateusz разработал полностью предобученную модель языка Project Inkblot's Titan v1, объединяющую Mamba SSM, Multi-Head Attention и 32-экспертную MoE в одной архитектуре декодера-только, с менее чем 1 миллиард параметров. Модель, обученная на одном GPU NVIDIA L4 за ~$50, достигает значения перпексивности 27.5 на валидационной выборке и демонстрирует эффективное масштабирование при изменении одной строки конфигурации, при этом все компоненты реализованы с нуля на PyTorch. Первый цикл обучения Titan v2 теперь завершён, и происходит расширение датасета.

media r/LocalLLaMA · 4 д назад

QAT KV Cache Quantization для Gemma 4 31B показывает огромное улучшение

QAT KV cache quantization для Gemma 4 31B значительно снижает KL-разброс по сравнению с стандартными квантованиями. QAT q8_0 достигает максимального разброса в 1,5, что на порядок превосходит стандартное q4_0, а QAT q4_0 превосходит стандартное q8_0 по производительности, при значительно меньшем отклонении выходных данных и отсутствии катастрофических выбросов.

media r/LocalLLaMA · 4 д назад

Gemma 4 QAT 31B лучше реагирует на квантование кэша KV

Бенчмарк показывает, что Gemma 4 QAT 31B работает лучше при квантовании кэша KV по сравнению с предыдущими версиями. Результаты были получены из поста на форуме LocalLLaMA, где пользователь justicecurcian поделился данными о производительности.

media r/LocalLLaMA · 4 д назад

Оптимизация инференса локальных моделей языковой модели: полное руководство

Полное руководство по оптимизации инференса локальных моделей языковой модели охватывает управление VRAM, кэшем ключ-значение, размещением MoE, MTP, настройкой CPU и распространёнными проблемами нехватки памяти. Руководство доступно по ссылке https://carteakey.dev/blog/local-inference/local-llm-optimization/ и включает запросы обратной связи от автора.

media r/LocalLLaMA · 4 д назад

Я forkнул ik_llama.cpp и добавил режим --numa mirror

Новый форк ik_llama.cpp добавляет режим --numa mirror, который копирует веса модели и кэш KV между разъемами процессора, обеспечивая полное использование систем с несколькими разъемами. Это снижает штрафы за доступ к удаленной памяти и повышает пропускную способность инференса до 1,6 раза на проверенных моделях, хотя требует вдвое больше ОЗУ.

media r/LocalLLaMA · 5 д назад

2× Radeon R9700 с моделью Qwen 3.6 27B Q8 MTP на llama.cpp

Пользователь сообщает о запуске модели Qwen 3.6 27B MTP на двух GPU Radeon R9700 через llama.cpp с использованием ROCm 7.2.1. Проверки показывают стабильные скорости декодирования (40–67 t/s) и пропускную способность предварительной обработки (до 1500 t/s для промптов длиной менее 10 тысяч токенов), при этом коэффициенты принятия проектов MTP варьируются от 0.33 до 0.61.

media r/LocalLLaMA · 5 д назад

ROCm против Vulkan против vLLM по производительности на двойных R9700

Проверки показывают, что vLLM достигает значительно более высоких скоростей генерации на моделях Qwen3.6, при этом модель 35B-A3B достигает скорости 156 t/s с использованием ROCm и AITER. ROCm превосходит Vulkan как по скорости в модели 35B, так и в модели 27B — скорости составляют около 106 t/s и 44 t/s соответственно, в то время как Vulkan достигает около 87 t/s и 41 t/s.

media r/LocalLLaMA · 5 д назад

Почему AutoRound так сильно игнорируется?

AutoRound значительно превосходит стандартные AWQ и RTN по перплексити и точности, особенно в сложных задачах рассуждения и длинных контекстах. Он по умолчанию экспортируется в GGUF, избегая проблем с преобразованием, и работает на любой конфигурации PyTorch, однако всё же остаётся малоиспользуемым, несмотря на эти преимущества.

media r/LocalLLaMA · 5 д назад

Gemma 4 QAT лучше реагирует на квантование кэша KV

Пост на Reddit сообщает, что при использовании квантования кэша KV Gemma 4 QAT демонстрирует значительное улучшение производительности, измеренное на датасете wikitext с контекстом в 16k. Пользователь отмечает, что его аппаратные ограничения делают возможным тестирование моделей на 31B, и приглашает других исследовать полученные результаты.

media r/LocalLLaMA · 5 д назад

ГЛОМ 5.2: отчет о скорости локальной инференции

Пользователи, отчитывающие скорости локальной инференции GLM 5.2 с использованием llama.cpp на 6x RTX 3090 с 128 ГБ DDR5 и i7-13700K, достигают скорости 7,8 токенов в секунду при размере контекста 90K с использованием квантования Q8_0. Обработка промпта происходит со скоростью примерно 40 токенов в секунду.

github llama.cpp · 5 д назад

llama.cpp Release b9741 Adds New Binaries and Support

llama.cpp version b9741 вводит новые бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах. В релизе предусмотрена поддержка Vulkan, CUDA 12.4 и 13.3, OpenVINO, SYCL и ROCm, а также обновленные версии для iOS и Ubuntu.

media r/LocalLLaMA · 5 д назад

Бесплатная серия из 15 частей о внутренних аспектах LLM, основанных на Gemma 4 12B

Я написал бесплатную серию из 15 частей, в которой подробно описывается внутренняя структура LLM, используя Gemma 4 12B в качестве основного примера. Каждая часть охватывает технические аспекты от токенизации до предоставления сервиса, с реальными математическими вычислениями, формами тензоров и ограничениями аппаратного обеспечения. Серия включает в себя дополнительный разбор vLLM и полностью доступна без платных стен или требований на электронную почту.

github llama.cpp · 5 д назад

Исправление случайных сбоев в test-args-parser на Windows

Патч устраняет случайные сбои в тесте test-args-parser на Windows, изменяя перекрытие argv так, чтобы применяться только при совпадении argc, предотвращая перезапись программных аргументов. Это устраняет сбой быстрого отказа в рабочем процессе OpenVINO на Windows, при этом сохраняя обработку UTF-8 для реальных исполняемых файлов.

media r/LocalLLaMA · 6 д назад

Теперь вы можете конвертировать квантованные модели EXL3 на Mac с процессором Apple Silicon

Пользователи теперь могут конвертировать и запускать квантованные модели EXL3 на Mac с процессором Apple Silicon и объёмом памяти 64 ГБ и более. Проверки показывают, что модели, такие как MiniCPM5 и Qwen3.6-27B, достигают производительности, сравнимой с или немного ниже производительности при конвертации на картах RTX, при этом EXL3 обеспечивает более высокое качество квантования по сравнению с MLX.

media r/LocalLLaMA · 6 д назад

Написанное на листке бумаги математика по совокупным расходам на хостинг diffusiongemma в 2026 году

Анализ затрат показывает, что хостинг diffusiongemma при различных уровнях токенов пользователей приводит к ежемесячным расходам на пользователя от 1,7 евро до 122,8 евро. Исследование показывает, что использование агентного ИИ экономически нецелесообразно для совместного хостинга, хотя расходы могут снизиться при появлении новых GPU или ASIC и сокращении срока износа GPU.