Inference efficiency — korshunov.ai

Inference efficiency Страница 1 / 10

Эмпирическое исследование квантования OpenPangu на NPUs Ascend

Управляемое исследование оценивает модели OpenPangu 1B и 7B на NPUs Huawei Ascend 910B1 с использованием методов квантования только весов и весов-активации. Результаты показывают, что квантование только весов на 8 бит является без потерь для обеих моделей, в то время как квантование на 4 бита является практическим для модели 7B, но вредным для модели 1B при выполнении задач по логике, математике и программированию. Методы экстремально низкой точности, такие как 2 бита и бинарные, не срабатывают, и W4A4 SmoothQuant приводит к неопределённому перплексити, что указывает на сложность экстремального сжатия на низких битах.

media r/LocalLLaMA · 2 д назад

Mimo 2.5 работает быстро при больших контекстах на двух картах RTX Pro 6000

Mimo 2.5 обеспечивает быструю производительность при больших длинах контекста на двух картах RTX Pro 6000, используя механизм скользящего окна с локальным и глобальным окнами в соотношении 5:1, аналогичный Gemma 3. Задачи выполняются примерно за 4 минуты, что значительно быстрее, чем у MiniMax M3, который занимает около 40 минут, несмотря на то, что оба модели имеют схожее качество при ограничениях VRAM.

arxiv arXiv cs.AI · 2 д назад

SwarmX: агентское планирование для систем с низкой задержкой

SwarmX вводит нейронные предикторы для обеспечения планирования с учетом запросов в агентных ИИ-системах. Он снижает хвостовую задержку на 61,5% и обеспечивает до 2 раз большую пропускную способность по сравнению с производственными планировщиками при одинаковых уровнях сервиса.

arxiv arXiv cs.AI · 2 д назад

Модели MoE показывают зависимость производительности от устройства

Эмпирическое исследование показывает, что модели на основе смеси экспертов не демонстрируют стабильное превосходство над плотными моделями на консольных или периферийных устройствах. На Apple M2 Pro модель OLMoE-1B-7B отстаёт от аналогичной плотной модели всего на 10%, в то время как на NVIDIA Jetson Orin Nano она отстаёт на 31% и потребляет в 2,1 раза больше энергии на токен из-за ограничений памяти и кэша ключей-значений. Результаты указывают на то, что преимущества редких активаций ограничены объёмом памяти, необходимым для хранения всех параметров, особенно на устройствах с ограниченной пропускной способностью.

media r/LocalLLaMA · 2 д назад

Новые Qwen-27B IQ4_KS и IQ4_KS_KT для ik_llama.cpp

Выпущены две новые GGUF-квантования для Qwen-27B для ik_llama.cpp, оптимизированные для 16 ГБ VRAM на GPU NVIDIA. Первое, Qwen3.6-27B.i1-IQ4_KS-attn_qkv-IQ4_KS.gguf, улучшает логическое мышление за счёт снижения общего знания, при перплекситете 7.4131. Второе, Qwen3.6-27-27B.i1-IQ4_KS_KT-attn_qkv-IQ4_KS.gguf, применяет квантование Trellis (iq4_kt) селективно к тензорам с близкой гауссовой распределённостью, достигая перплекситете 7.4091, что показывает минимальное снижение производительности.

media r/LocalLLaMA · 2 д назад

Цены на модели OpenRouter указывают на более глубокую квантование

Цены на модели OpenRouter указывают на значительное квантование моделей, поскольку стоимость прямого выполнения превышает цены на API без высокой пропускной способности или оптимизированного обслуживания. Автор утверждает, что без значительного повышения эффективности или предоставления премиальных, высококачественных доступов, квантование, вероятно, снижает качество выводов — особенно в сложных задачах, таких как планирование и программирование — что вызывает опасения по поводу прозрачности и доступа к истинной способности моделей.

media r/LocalLLaMA · 2 д назад

GLM 5.2 на Mac Studio ускорение PR

GLM 5.2 обеспечивает улучшенные скорости предварительной загрузки, превышающие 100 t/s при больших длинах контекста. Обновление снижает использование памяти, позволяя 4-битным квантованным моделям эффективно обрабатывать более 100 тысяч токенов контекста. Это улучшение подробно описано в PR от создателя oMLX.

media r/LocalLLaMA · 2 д назад

Анализ KLD квантования кэша KV для моделей Qwen3.6-35B-A3B и Gemma4-E2B QAT

Подробный анализ показывает KLD (разделение Кульбака-Лейбера) квантования кэша KV для моделей Qwen3.6-35B-A3B и Gemma4-E2B. Результаты показывают, что квантование q8/q8 практически без потерь на обеих моделях, в то время как q4/q4 работает хорошо на Qwen, но приводит к серьезной деградации на Gemma. Варианты турбо-квантования показывают разнородную производительность: турбо3 и турбо2 обеспечивают экстремальную сжатие кэша, но при значительной потере точности.

github llama.cpp · 3 д назад

Обновления бэкенда Vulkan и новые версии бинарных файлов для llama.cpp

Релиз llama.cpp b9774 добавляет поддержку бэкенда Vulkan для операций SQR, SQRT, SIN, COS, CLAMP, LEAKY_RELU и NORM, с поддержкой непрерывных входных данных. В релизе представлены бинарные сборки для macOS, Linux, Android, Windows и openEuler на различных архитектурах и бэкендах, включая CUDA, OpenVINO, SYCL и ROCm.

github llama.cpp · 3 д назад

Релиз LLaMA.cpp b9775: новые бинарники и поддержка нескольких платформ

LLaMA.cpp выпустил версию b9775, в которой представлены бинарники для macOS, Linux, Android, Windows и openEuler на различных архитектурах. В релизе включены поддержка CPU, Vulkan, OpenVINO, SYCL и ROCm, обновленные версии CUDA (12.4 и 13.3) и доступность iOS XCFramework. Также предоставляется пакет интерфейса.

media r/LocalLLaMA · 3 д назад

Многоуровневое кэширование MoE: оптимизация активации экспертов в крупных моделях

Модели MoE, такие как GLM 5.2 и Deepseek V4, показывают, что передние 20% экспертов обрабатывают 85% активаций. Многоуровневый подход к кэшированию может переместить эти экспертов в память GPU, используя высокоскоростную VRAM для ускорения инференса. Существующие системы, такие как PowerInfer, llama.cpp Лиденбурга и HOBBIT, демонстрируют практическую реализацию кэширования экспертов и предварительной загрузки.

github llama.cpp · 3 д назад

Релиз LLaMA.cpp b9771 добавляет поддержку Vulkan и оптимизации

Релиз LLaMA.cpp b9771 вводит поддержку Vulkan на Linux и Windows, уменьшая количество вариантов шейдеров и размер бинарного файла, делая mul_mm ALIGNED специальной константой. В релизе представлены бинарники для macOS, Linux, Android, Windows и openEuler, с вариантами для CPU, Vulkan, OpenVINO, SYCL и ROCm.

github llama.cpp · 3 д назад

Исправление проверки результатов Vulkan и связи тестов в llama.cpp

llama.cpp теперь связывает ggml-cpu при включении GGML_VULKAN_CHECK_RESULTS или GGML_VULKAN_RUN_TESTS для устранения ошибок связи. Это исправление восстанавливает функциональность отладки для проверки результатов Vulkan и тестирования после разделения библиотеки ggml-cpu.

arxiv arXiv cs.CL · 3 д назад

SVD-Surgeon: Оптимальная операция по значениям сингулярных для сжатия LLM

SVD-Surgeon — это метод без обучения, который применяет рамку Оптимального врача-мозга к разложению по сингулярным значениям. Он вычисляет замкнутую форму обновления для сохраняемых сингулярных значений для компенсации обрезки, улучшая баланс между перплексностью и сжатием на моделях OPT и LLaMA 2-7B без переподготовки.

media r/LocalLLaMA · 3 д назад

100 т/с на Qwen3.6-27B Q8_0 с использованием 5090 и 3090 Ti в режиме tensor split-mode

Пользователь достиг 100 токенов в секунду на Qwen3.6-27B при Q8_0 с использованием двух видеокарт (RTX 5090 и RTX 3090 Ti). Переключение с режима layer split на режим tensor split увеличил пропускную способность с 70 до 100 т/с, при 70/30 распределении тензоров преимущество отдано 5090 для соответствия вычислительной мощности. Пропускная способность варьируется в зависимости от запроса и может достигать до 130 т/с в некоторых случаях.

media r/LocalLLaMA · 3 д назад

Кто нуждается в GPU? 64 т/с ген, 285 ПП на процессорах, возрастом 6 лет

Модель gemma-4-26B-A4B, работающая на CPU с двумя процессорами Xeon 6248R, достигает скорости генерации 64 токена в секунду и 285 параллельных процессов, демонстрируя приемлемую производительность на оборудовании, возрастом 6 лет. Пользователь подчеркивает потенциал локальных моделей на CPU, которые могут конкурировать с системами, основанными на GPU, акцентируя внимание на экономичности и доступности.

github llama.cpp · 3 д назад

llama.cpp release b9767 добавляет поддержку GPU и мультиплатформенности

llama.cpp release b9767 улучшает инференс MTP с использованием путей мат-вектора для малых батчей и включает обновлённую поддержку GPU. В релизе представлены бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и API, включая Vulkan, CUDA, OpenVINO и SYCL.

media r/LocalLLaMA · 3 д назад

Серверы MCP расходуют окно контекста через определения инструментов

Каждый сервер MCP экспортирует полный список инструментов в контекст модели до появления запроса, используя до 24 000 токенов для 62 инструментов. Локальный гейтвей, реализующий ленивое открытие, снижает издержки на определения инструментов на 97%, снижая использование токенов с ~24 тыс. до ~660 на запрос, что приводит к 90% меньшему общему количеству токенов за задание, без влияния на успешность выполнения задачи.

github llama.cpp · 3 д назад

llama.cpp Release b9763 Добавляет ID в ответы на вызовы инструментов

Версия llama.cpp b9763 вводит поле ID в ответах на вызовы инструментов. В этом выпуске представлены бинарники для macOS, Linux, Android, Windows и openEuler на различных архитектурах и вариантах ускорения аппаратного обеспечения, а также доступен компонент интерфейса.

media r/LocalLLaMA · 3 д назад

Идея запуска GLM2 при приемлемой квантовой настройке с GPU и DDR3

Пользователь предлагает использовать четыре видеокарты 5060 Ti с общим объемом ОЗУ 64 ГБ, работающих по интерфейсу PCIe Gen 3, для запуска GLM2 при приемлемом уровне квантования. Они предлагают добавить 512 ГБ ОЗУ DDR3 в сервере с 16 линиями PCIe и 4x4 разветвления для выгрузки хранения кэша КВ, с целью обеспечения эффективного инференса без использования единой памяти. Общая стоимость такой конфигурации оценивается в около 1700 долларов, с возможностью использования GLM2 при приемлемом уровне квантования.