Inference efficiency — korshunov.ai

Inference efficiency Страница 1 / 9

Лучшая модель для локальной работы и работы в Unity с MCP при 12 ГБ VRAM

Пользователь ищет лёгкую модель LLM, предназначенную для Unity 6.5 с MCP, работающую в пределах 12 ГБ VRAM. В настоящее время он использует бесплатные версии Cursor и Claude, однако считает их недостаточными, и спрашивает, существуют ли специализированные модели или альтернативные решения.

arxiv arXiv cs.CL · 23 ч назад

Постериорная коррекция: быстрая генерация языка через любые порядки карт потоков

FMLM+ вводит постериорную коррекцию, стратегию, позволяющую адаптивную самокоррекцию во время инференса. Сочетая транспорт карт потока с маскирующими схемами шума, достигается высокая точность генерации языка при 32 раза меньшем количестве оценок без шума, что превосходит как MDM, так и FMLM по соотношению скорости и качества.

github llama.cpp · 1 д назад

llama.cpp release b9776 добавляет поддержку Vulkan и нескольких аппаратных платформ

Версия llama.cpp b9776 вводит поддержку Vulkan для Linux и Windows, а также варианты для CPU, OpenCL, CUDA и SYCL на macOS, Linux, Android и Windows. В выпуске также включена поддержка OpenVINO и ROCm, с интерфейсом, доступным в отдельном пакете.

arxiv arXiv cs.AI · 1 д назад

Адаптивное кэширование КВ на основе новизны и частоты использования для обслуживания моделей языковой обработки

Новый метод кэширования КВ динамически распределяет пространство кэша между блоками, недавно использованными и часто используемыми, чтобы повысить эффективность. Он повышает коэффициент попадания в кэш КВ на 10,8% и снижает время до первого токена на 12,6% на синтетических нагрузках, с ростом на 2,1% и 2,0% на задачах реальных разговоров.

arxiv arXiv cs.AI · 1 д назад

ACE-GS: Эффективная и точная 3D гауссовая сплата

ACE-GS представляет прогрессивную оптимизационную рамку, которая обеспечивает точную, компактную и эффективную 3D гауссовую сплату. Она позволяет ускорить обучение в 3,7 раза по сравнению с Speedy-Splat, обеспечивая улучшение PSNR на 0,89 дБ по сравнению с оригинальной 3DGS, при этом сохраняя высокую структурную схожесть и компактное представление сцены.

arxiv arXiv cs.AI · 1 д назад

Эмпирическое исследование квантования OpenPangu на NPUs Ascend

Управляемое исследование оценивает модели OpenPangu 1B и 7B на NPUs Huawei Ascend 910B1 с использованием методов квантования только весов и весов-активации. Результаты показывают, что квантование только весов на 8 бит является без потерь для обеих моделей, в то время как квантование на 4 бита является практическим для модели 7B, но вредным для модели 1B при выполнении задач по логике, математике и программированию. Методы экстремально низкой точности, такие как 2 бита и бинарные, не срабатывают, и W4A4 SmoothQuant приводит к неопределённому перплексити, что указывает на сложность экстремального сжатия на низких битах.

media r/LocalLLaMA · 1 д назад

Mimo 2.5 работает быстро при больших контекстах на двух картах RTX Pro 6000

Mimo 2.5 обеспечивает быструю производительность при больших длинах контекста на двух картах RTX Pro 6000, используя механизм скользящего окна с локальным и глобальным окнами в соотношении 5:1, аналогичный Gemma 3. Задачи выполняются примерно за 4 минуты, что значительно быстрее, чем у MiniMax M3, который занимает около 40 минут, несмотря на то, что оба модели имеют схожее качество при ограничениях VRAM.

arxiv arXiv cs.AI · 1 д назад

SwarmX: агентское планирование для систем с низкой задержкой

SwarmX вводит нейронные предикторы для обеспечения планирования с учетом запросов в агентных ИИ-системах. Он снижает хвостовую задержку на 61,5% и обеспечивает до 2 раз большую пропускную способность по сравнению с производственными планировщиками при одинаковых уровнях сервиса.

arxiv arXiv cs.AI · 1 д назад

Модели MoE показывают зависимость производительности от устройства

Эмпирическое исследование показывает, что модели на основе смеси экспертов не демонстрируют стабильное превосходство над плотными моделями на консольных или периферийных устройствах. На Apple M2 Pro модель OLMoE-1B-7B отстаёт от аналогичной плотной модели всего на 10%, в то время как на NVIDIA Jetson Orin Nano она отстаёт на 31% и потребляет в 2,1 раза больше энергии на токен из-за ограничений памяти и кэша ключей-значений. Результаты указывают на то, что преимущества редких активаций ограничены объёмом памяти, необходимым для хранения всех параметров, особенно на устройствах с ограниченной пропускной способностью.

media r/LocalLLaMA · 1 д назад

Новые Qwen-27B IQ4_KS и IQ4_KS_KT для ik_llama.cpp

Выпущены две новые GGUF-квантования для Qwen-27B для ik_llama.cpp, оптимизированные для 16 ГБ VRAM на GPU NVIDIA. Первое, Qwen3.6-27B.i1-IQ4_KS-attn_qkv-IQ4_KS.gguf, улучшает логическое мышление за счёт снижения общего знания, при перплекситете 7.4131. Второе, Qwen3.6-27-27B.i1-IQ4_KS_KT-attn_qkv-IQ4_KS.gguf, применяет квантование Trellis (iq4_kt) селективно к тензорам с близкой гауссовой распределённостью, достигая перплекситете 7.4091, что показывает минимальное снижение производительности.

media r/LocalLLaMA · 1 д назад

Цены на модели OpenRouter указывают на более глубокую квантование

Цены на модели OpenRouter указывают на значительное квантование моделей, поскольку стоимость прямого выполнения превышает цены на API без высокой пропускной способности или оптимизированного обслуживания. Автор утверждает, что без значительного повышения эффективности или предоставления премиальных, высококачественных доступов, квантование, вероятно, снижает качество выводов — особенно в сложных задачах, таких как планирование и программирование — что вызывает опасения по поводу прозрачности и доступа к истинной способности моделей.

media r/LocalLLaMA · 1 д назад

GLM 5.2 на Mac Studio ускорение PR

GLM 5.2 обеспечивает улучшенные скорости предварительной загрузки, превышающие 100 t/s при больших длинах контекста. Обновление снижает использование памяти, позволяя 4-битным квантованным моделям эффективно обрабатывать более 100 тысяч токенов контекста. Это улучшение подробно описано в PR от создателя oMLX.

media r/LocalLLaMA · 1 д назад

Анализ KLD квантования кэша KV для моделей Qwen3.6-35B-A3B и Gemma4-E2B QAT

Подробный анализ показывает KLD (разделение Кульбака-Лейбера) квантования кэша KV для моделей Qwen3.6-35B-A3B и Gemma4-E2B. Результаты показывают, что квантование q8/q8 практически без потерь на обеих моделях, в то время как q4/q4 работает хорошо на Qwen, но приводит к серьезной деградации на Gemma. Варианты турбо-квантования показывают разнородную производительность: турбо3 и турбо2 обеспечивают экстремальную сжатие кэша, но при значительной потере точности.

github llama.cpp · 2 д назад

Обновления бэкенда Vulkan и новые версии бинарных файлов для llama.cpp

Релиз llama.cpp b9774 добавляет поддержку бэкенда Vulkan для операций SQR, SQRT, SIN, COS, CLAMP, LEAKY_RELU и NORM, с поддержкой непрерывных входных данных. В релизе представлены бинарные сборки для macOS, Linux, Android, Windows и openEuler на различных архитектурах и бэкендах, включая CUDA, OpenVINO, SYCL и ROCm.

github llama.cpp · 2 д назад

Релиз LLaMA.cpp b9775: новые бинарники и поддержка нескольких платформ

LLaMA.cpp выпустил версию b9775, в которой представлены бинарники для macOS, Linux, Android, Windows и openEuler на различных архитектурах. В релизе включены поддержка CPU, Vulkan, OpenVINO, SYCL и ROCm, обновленные версии CUDA (12.4 и 13.3) и доступность iOS XCFramework. Также предоставляется пакет интерфейса.

media r/LocalLLaMA · 2 д назад

Многоуровневое кэширование MoE: оптимизация активации экспертов в крупных моделях

Модели MoE, такие как GLM 5.2 и Deepseek V4, показывают, что передние 20% экспертов обрабатывают 85% активаций. Многоуровневый подход к кэшированию может переместить эти экспертов в память GPU, используя высокоскоростную VRAM для ускорения инференса. Существующие системы, такие как PowerInfer, llama.cpp Лиденбурга и HOBBIT, демонстрируют практическую реализацию кэширования экспертов и предварительной загрузки.

github llama.cpp · 2 д назад

Релиз LLaMA.cpp b9771 добавляет поддержку Vulkan и оптимизации

Релиз LLaMA.cpp b9771 вводит поддержку Vulkan на Linux и Windows, уменьшая количество вариантов шейдеров и размер бинарного файла, делая mul_mm ALIGNED специальной константой. В релизе представлены бинарники для macOS, Linux, Android, Windows и openEuler, с вариантами для CPU, Vulkan, OpenVINO, SYCL и ROCm.

github llama.cpp · 2 д назад

Исправление проверки результатов Vulkan и связи тестов в llama.cpp

llama.cpp теперь связывает ggml-cpu при включении GGML_VULKAN_CHECK_RESULTS или GGML_VULKAN_RUN_TESTS для устранения ошибок связи. Это исправление восстанавливает функциональность отладки для проверки результатов Vulkan и тестирования после разделения библиотеки ggml-cpu.

arxiv arXiv cs.CL · 2 д назад

SVD-Surgeon: Оптимальная операция по значениям сингулярных для сжатия LLM

SVD-Surgeon — это метод без обучения, который применяет рамку Оптимального врача-мозга к разложению по сингулярным значениям. Он вычисляет замкнутую форму обновления для сохраняемых сингулярных значений для компенсации обрезки, улучшая баланс между перплексностью и сжатием на моделях OPT и LLaMA 2-7B без переподготовки.

media r/LocalLLaMA · 2 д назад

100 т/с на Qwen3.6-27B Q8_0 с использованием 5090 и 3090 Ti в режиме tensor split-mode

Пользователь достиг 100 токенов в секунду на Qwen3.6-27B при Q8_0 с использованием двух видеокарт (RTX 5090 и RTX 3090 Ti). Переключение с режима layer split на режим tensor split увеличил пропускную способность с 70 до 100 т/с, при 70/30 распределении тензоров преимущество отдано 5090 для соответствия вычислительной мощности. Пропускная способность варьируется в зависимости от запроса и может достигать до 130 т/с в некоторых случаях.