LLaMA.cpp выпускает версию b9784 с существенными оптимизациями для операций MM на основе Hexagon, включая тайлинг весов 32x32, улучшенную обработку dyn.quant и единое управление параметрами ядра. В релизе представлены новые бинарники для macOS (arm64 и x64), iOS и нескольких архитектур Linux с поддержкой Vulkan, ROCm и OpenVINO.
Релиз LLaMA.cpp b9784: оптимизации для операций MM на основе Hexagon и бинарники для разных платформ
Переведено с English → Русский