Inference efficiency
github llama.cpp · 7 д назад

llama.cpp Release b9692 Adds New Binaries and Fixes

llama.cpp версия b9692 вводит новые бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах. В релизе включены обновления для поддержки Vulkan, ROCm, OpenVINO, SYCL и HIP, а также исправления, удаляющие использование размера батча в llava_uhd.

github llama.cpp · 7 д назад

Бэкенд Metal добавляет поддержку f16 и bf16 для оператора concat

Бэкенд Metal в llama.cpp был расширен для поддержки типов тензоров f16 и bf16 для оператора concat, в дополнение к существующей поддержке f32 и i32. Обновление включает специализированные шаблоны ядер, обновленные получатели трубопровода и улучшенную диспетчеризацию ядер по типам, с участием pi:llama.cpp/Qwen3.6-27B.

github llama.cpp · 7 д назад

llama.cpp выпускает версию b9688 с новыми API и бинарниками для разных платформ

llama.cpp выпускает версию b9688, добавляя API для управления моделями и в реальном времени обновлений SSE. В релизе включены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler, поддерживающие различные архитектуры и ускорения, такие как Vulkan, CUDA, OpenVINO и SYCL.

media r/LocalLLaMA · 7 д назад

советы по оптимизации памяти GPU для llama.cpp

Пользователи llama.cpp могут освободить память GPU, отключив offload mmproj, используя уменьшенные типы KV-кэша и настраивая spec-draft-n-max. Параметры, такие как --ctx-checkpoints и --fit-target, оказывают минимальное влияние, в то время как --parallel помогает в многопользовательских средах, но не подходит для однопользовательских настроек.

media r/LocalLLaMA · 7 д назад

GLM-5.2-FP8 HGX-H200 SGLang Docker Deployment Config

Пользователь делится конфигурацией Docker для запуска GLM-5.2-FP8 на аппаратных средствах HGX-H200 с использованием SGLang. Настройка достигает длины контекста 262k и скорости 70 токенов в секунду при 8 параллелизме тензоров, используя долю памяти 0.83. Пользователь отмечает, что официальные рецепты vLLM не работают на H200 из-за ограничений квантования FP8 кэша KV на архитектуре DSV3.

github llama.cpp · 7 д назад

Релиз LLaMA.cpp b9685 добавляет SYCL Dev2Dev Memcpy и несколько платформенных бинарных файлов

Версия LLaMA.cpp b9685 вводит функциональность dev2dev memcpy на основе SYCL, перемещая GGML_SYCL_DEV2DEV_MEMCPY в таблицу на уровне выполнения и улучшает обнаружение взаимодействия между процессами. В релизе представлены предварительно скомпилированные бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и API, включая Vulkan, ROCm, OpenVINO и SYCL (FP32/FP16).

github llama.cpp · 7 д назад

Релиз LLaMA.cpp b9684 добавляет Conv_3D и бинарники для нескольких платформ

Релиз LLaMA.cpp b9684 вводит новую операцию 3D-конволюции (conv_3d) и включает оптимизированные реализации. В релизе представлены предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler на различных архитектурах и вариантах ускорения аппаратного обеспечения, включая SYCL, Vulkan, CUDA и OpenVINO.

media r/LocalLLaMA · 7 д назад

Создание бюджетных моделей, которые превосходят свои размеры благодаря умному управлению на Rust

Новый фреймворк на основе Rust позволяет малым языковым моделям достигать производительности, сравнимой с более крупными моделями, используя эффективное управление памятью и оптимизированные вычисления. Подход снижает требования к ресурсам без ущерба для точности, делая продвинутую ИИ доступным для сред с ограниченными ресурсами.

media r/LocalLLaMA · 7 д назад

TRELLIS.2 теперь работает нативно на MLX

TRELLIS.2 был перенесён для нативной работы на MLX для процессоров Apple Silicon. Модель поддерживает входные изображения размером 512x512 и 1024x1024, время генерации составляет примерно 70 секунд для изображений 512x517 и от 300 до 700 секунд для изображений 1024x1024 на процессоре M4 Max с 128 ГБ единой памяти.

media r/LocalLLaMA · 7 д назад

GLM 5.2 на 4x Sparks: разумно?

Пользователь спрашивает, возможно ли запуск GLM-5.2 на четырех чипах Ascend GX10 (DGX Sparks). Он уточняет вопрос о 4-битной квантовании с использованием 512 ГБ единой памяти и оценивает скорости обработки промптов и токенов вывода для длины контекста 100 тысяч токенов, отметив, что в интернете нет доступных данных по производительности.

github llama.cpp · 7 д назад

llama.cpp release b9682 добавляет поддержку Vulkan и новые бинарники для платформ

Версия llama.cpp b9682 добавляет поддержку Vulkan для Linux и Windows, что позволяет использовать ускорение GPU. В этом выпуске представлены бинарники для macOS, Linux, Android, Windows и openEuler на разных архитектурах, с вариантами CPU и GPU, включая CUDA, OpenVINO, SYCL и ROCm.

github llama.cpp · 8 д назад

llama.cpp release b9675 добавляет поддержку FP16 и новые бинарники для платформ

Версия llama.cpp b9675 включает поддержку FP16 для операций, таких как SQR, SQRT, LOG, SIN, COS и CLAMP. В релизе представлены бинарники для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах, с поддержкой Vulkan, ROCm, OpenVINO, SYCL (FP16 и FP32) и CUDA 12.4 и 13.3.

media Latent Space · 8 д назад

GLM-5.2 претендует на первое место в frontend-программировании с использованием спекулятивного декодирования

GLM-5.2, модель из 744B параметров от Z.ai, была оценена как лучшая модель для frontend-программирования в мире, превосходя все версии Opus, включая Opus 4.8. Этот результат подчеркивается третьими сторонами, которые подтверждают официальные оффлайн-тесты, что является значимым достижением для модели такого размера, особенно в конкурентной области frontend-программирования.

arxiv arXiv cs.LG · 8 д назад

S4oP: метод прямого сокращения на уровне операторов для эффективной развертывания SSM

S4oP вводит метод постепенного сокращения на уровне операторов для моделей S4 и S4D, что позволяет снизить стоимость инференса на 70% при сохранении производительности прогнозирования. Метод объединяет структурированное маскирование с мелкой настройкой и одновременно отслеживает точность и задержку, что обеспечивает эффективное развертывание SSM на устройствах с ограниченными ресурсами.

arxiv arXiv cs.LG · 8 д назад

Тернарный Мамба: эффективная QAT моделей SSM из предварительно обученных чекпоинтов

Тернарный Мамба достигает сжатия Мамба-2 в 3,61 раза с 2687 до 744 МБ с использованием групповой квантовой тренировки с дистилляцией знаний. Он достигает точности 48,1% на 7 задачах в 102 млн токенов, что соответствует Би-Мамбе с погрешностью 0,9 процентных пунктов, при этом избегая дорогостоящей с нуля тренировки.

media r/LocalLLaMA · 8 д назад

Оценки модифицированного V620 с прошивкой W6800 на eBay

Модифицированный V620 с прошивкой W6800 позволяет получить выход на mini-DisplayPort, но отключает некоторые вычислительные ядра, несмотря на более высокие частоты быстрой загрузки. Оценки показывают, что Vulkan превосходит ROCm в задачах по группам тензоров (TG), в то время как ROCm быстрее в обработке запросов (PP) при больших глубинах контекста, с существенными выигрышами в настройках Q4_K_XL.

media r/LocalLLaMA · 8 д назад

Самый дешевый способ запуска GLM 5.x локально без использования единых памяти

Пользователь исследует экономически обоснованные способы запуска GLM 5.x локально с использованием 4-битной квантования, таких как IQ4_XS, без зависимости от единых памяти. Возможные варианты включают настройки только на процессоре, такие как Sapphire Rapids ES с DDR5, распределение нагрузки между несколькими GPU или использование моделей аналогичного размера. Пользователь использует систему 5900X + 128 ГБ DDR4 + 7900XT 20 ГБ и успешно запускает Minimax 2.7 при Q4_K_S и Qwen 3.6 27B при IQ4_XS.

arxiv arXiv cs.CL · 8 д назад

ConSA: Управление спарсностью в гибридном внимании

ConSA представляет рамку, которая обучает оптимальное распределение внимания между полным и оконным вниманием с использованием регуляризации L0 и дополнительных лагранжевых ограничений. Он превосходит методы на основе правил, при этом оконное внимание (SWA) размещается в нижних слоях, а полное внимание (FA) концентрируется в блоках средних слоев, что наблюдается во всех масштабах моделей и уровнях спарсности.