Inference efficiency — korshunov.ai

Inference efficiency Страница 1 / 9

Кто нуждается в GPU? 64 т/с ген, 285 ПП на процессорах, возрастом 6 лет

Модель gemma-4-26B-A4B, работающая на CPU с двумя процессорами Xeon 6248R, достигает скорости генерации 64 токена в секунду и 285 параллельных процессов, демонстрируя приемлемую производительность на оборудовании, возрастом 6 лет. Пользователь подчеркивает потенциал локальных моделей на CPU, которые могут конкурировать с системами, основанными на GPU, акцентируя внимание на экономичности и доступности.

github llama.cpp · 2 д назад

llama.cpp release b9767 добавляет поддержку GPU и мультиплатформенности

llama.cpp release b9767 улучшает инференс MTP с использованием путей мат-вектора для малых батчей и включает обновлённую поддержку GPU. В релизе представлены бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и API, включая Vulkan, CUDA, OpenVINO и SYCL.

media r/LocalLLaMA · 2 д назад

Серверы MCP расходуют окно контекста через определения инструментов

Каждый сервер MCP экспортирует полный список инструментов в контекст модели до появления запроса, используя до 24 000 токенов для 62 инструментов. Локальный гейтвей, реализующий ленивое открытие, снижает издержки на определения инструментов на 97%, снижая использование токенов с ~24 тыс. до ~660 на запрос, что приводит к 90% меньшему общему количеству токенов за задание, без влияния на успешность выполнения задачи.

github llama.cpp · 2 д назад

llama.cpp Release b9763 Добавляет ID в ответы на вызовы инструментов

Версия llama.cpp b9763 вводит поле ID в ответах на вызовы инструментов. В этом выпуске представлены бинарники для macOS, Linux, Android, Windows и openEuler на различных архитектурах и вариантах ускорения аппаратного обеспечения, а также доступен компонент интерфейса.

media r/LocalLLaMA · 2 д назад

Идея запуска GLM2 при приемлемой квантовой настройке с GPU и DDR3

Пользователь предлагает использовать четыре видеокарты 5060 Ti с общим объемом ОЗУ 64 ГБ, работающих по интерфейсу PCIe Gen 3, для запуска GLM2 при приемлемом уровне квантования. Они предлагают добавить 512 ГБ ОЗУ DDR3 в сервере с 16 линиями PCIe и 4x4 разветвления для выгрузки хранения кэша КВ, с целью обеспечения эффективного инференса без использования единой памяти. Общая стоимость такой конфигурации оценивается в около 1700 долларов, с возможностью использования GLM2 при приемлемом уровне квантования.

lab NVIDIA Technical Blog · 3 д назад

CCCL Runtime: Современный C++ runtime для CUDA

NVIDIA выпустил CCCL Runtime, современный C++ runtime, который обеспечивает более безопасные и удобные абстракции для программирования CUDA. Он вводит обновленные функции C++ для упрощения и улучшения разработки CUDA C++.

lab NVIDIA Technical Blog · 3 д назад

Включить реальное время ИИ для высокоскоростного сбора данных с помощью DAQIRI

Успех AlphaFold2 в 2020 году зависел от 170 000 структур белков из Базы данных белков. Система DAQIRI от Nvidia позволяет выполнять реальное время обработку ИИ для высокоскоростного сбора данных, анализируя данные при их генерации.

media r/LocalLLaMA · 3 д назад

Проверка скорости GLM-5.2 UD-IQ1_M на llama.cpp с 5090 и 3090 Ti

Проверка скорости GLM-5.2, квантованной до UD-IQ1_M, с использованием llama.cpp показывает 579 t/s при предзаполнении на 8k контексте и 324 t/s при 57k контексте. Скорость декодирования остается стабильной на уровне 10.6 t/s более чем на 580 токенов, снижаясь до 9.37 t/s при 60k контексте.

media r/LocalLLaMA · 3 д назад

Qwen3.6-35B-A3B APEX на RTX 3090: сравнительные показатели скорости и качества

Бенчмарк сравнивает форки llama.cpp (ik_llama и spiritbuun), работающие с моделью Qwen3.6-35B-A3B APEX в режимах I-Compact и I-Quality. ik_llama с I-Compact достигает максимальной скорости (~146 TPS), в то время как spiritbuun с I-Quality и кэшем turbo8/turbo4 достигает такой же скорости и обеспечивает немного лучшие показатели по HellaSwag. Кэши turbo8/turbo4 превосходят q8_0/q5_0, особенно при длинных контекстах, обеспечивая до 15% роста скорости и меньшую величину KLD, что делает их превосходными для качества и длины контекста.

media MarkTechPost · 3 д назад

MoonMath AI опубликовал открытый исходный код ядра приставки внимания HIP, которое превосходит AITER v3 на MI300X

MoonMath AI опубликовал ядро прямого внимания в формате bf16 для графического процессора MI300X от AMD, написанное на языке HIP, а не на ассемблере. Оно превосходит ядро AITER v3 от AMD по всем проверенным форматам и режимам округления, обеспечивая ускорение до 1,26 раза, и сохраняет бит-точную числовую точность.

media Hugging Face Forums · 3 д назад

Я создал новую тройную гибридную модель языковой модели с менее чем 1 миллиард параметров за ~$50

Mateusz разработал полностью предобученную модель языка Project Inkblot's Titan v1, объединяющую Mamba SSM, Multi-Head Attention и 32-экспертную MoE в одной архитектуре декодера-только, с менее чем 1 миллиард параметров. Модель, обученная на одном GPU NVIDIA L4 за ~$50, достигает значения перпексивности 27.5 на валидационной выборке и демонстрирует эффективное масштабирование при изменении одной строки конфигурации, при этом все компоненты реализованы с нуля на PyTorch. Первый цикл обучения Titan v2 теперь завершён, и происходит расширение датасета.

media r/LocalLLaMA · 3 д назад

QAT KV Cache Quantization для Gemma 4 31B показывает огромное улучшение

QAT KV cache quantization для Gemma 4 31B значительно снижает KL-разброс по сравнению с стандартными квантованиями. QAT q8_0 достигает максимального разброса в 1,5, что на порядок превосходит стандартное q4_0, а QAT q4_0 превосходит стандартное q8_0 по производительности, при значительно меньшем отклонении выходных данных и отсутствии катастрофических выбросов.

media r/LocalLLaMA · 3 д назад

Gemma 4 QAT 31B лучше реагирует на квантование кэша KV

Бенчмарк показывает, что Gemma 4 QAT 31B работает лучше при квантовании кэша KV по сравнению с предыдущими версиями. Результаты были получены из поста на форуме LocalLLaMA, где пользователь justicecurcian поделился данными о производительности.

media r/LocalLLaMA · 3 д назад

Оптимизация инференса локальных моделей языковой модели: полное руководство

Полное руководство по оптимизации инференса локальных моделей языковой модели охватывает управление VRAM, кэшем ключ-значение, размещением MoE, MTP, настройкой CPU и распространёнными проблемами нехватки памяти. Руководство доступно по ссылке https://carteakey.dev/blog/local-inference/local-llm-optimization/ и включает запросы обратной связи от автора.

media r/LocalLLaMA · 3 д назад

Я forkнул ik_llama.cpp и добавил режим --numa mirror

Новый форк ik_llama.cpp добавляет режим --numa mirror, который копирует веса модели и кэш KV между разъемами процессора, обеспечивая полное использование систем с несколькими разъемами. Это снижает штрафы за доступ к удаленной памяти и повышает пропускную способность инференса до 1,6 раза на проверенных моделях, хотя требует вдвое больше ОЗУ.

media r/LocalLLaMA · 4 д назад

2× Radeon R9700 с моделью Qwen 3.6 27B Q8 MTP на llama.cpp

Пользователь сообщает о запуске модели Qwen 3.6 27B MTP на двух GPU Radeon R9700 через llama.cpp с использованием ROCm 7.2.1. Проверки показывают стабильные скорости декодирования (40–67 t/s) и пропускную способность предварительной обработки (до 1500 t/s для промптов длиной менее 10 тысяч токенов), при этом коэффициенты принятия проектов MTP варьируются от 0.33 до 0.61.

media r/LocalLLaMA · 4 д назад

ROCm против Vulkan против vLLM по производительности на двойных R9700

Проверки показывают, что vLLM достигает значительно более высоких скоростей генерации на моделях Qwen3.6, при этом модель 35B-A3B достигает скорости 156 t/s с использованием ROCm и AITER. ROCm превосходит Vulkan как по скорости в модели 35B, так и в модели 27B — скорости составляют около 106 t/s и 44 t/s соответственно, в то время как Vulkan достигает около 87 t/s и 41 t/s.

media r/LocalLLaMA · 4 д назад

Почему AutoRound так сильно игнорируется?

AutoRound значительно превосходит стандартные AWQ и RTN по перплексити и точности, особенно в сложных задачах рассуждения и длинных контекстах. Он по умолчанию экспортируется в GGUF, избегая проблем с преобразованием, и работает на любой конфигурации PyTorch, однако всё же остаётся малоиспользуемым, несмотря на эти преимущества.

media r/LocalLLaMA · 4 д назад

Gemma 4 QAT лучше реагирует на квантование кэша KV

Пост на Reddit сообщает, что при использовании квантования кэша KV Gemma 4 QAT демонстрирует значительное улучшение производительности, измеренное на датасете wikitext с контекстом в 16k. Пользователь отмечает, что его аппаратные ограничения делают возможным тестирование моделей на 31B, и приглашает других исследовать полученные результаты.

media r/LocalLLaMA · 4 д назад

ГЛОМ 5.2: отчет о скорости локальной инференции

Пользователи, отчитывающие скорости локальной инференции GLM 5.2 с использованием llama.cpp на 6x RTX 3090 с 128 ГБ DDR5 и i7-13700K, достигают скорости 7,8 токенов в секунду при размере контекста 90K с использованием квантования Q8_0. Обработка промпта происходит со скоростью примерно 40 токенов в секунду.