github llama.cpp · il y a 14 j · inference

Le backend Metal ajoute la prise en charge de f16 et bf16 pour l'opérateur concat

Traduit de English → Français

Le backend Metal dans llama.cpp a été étendu pour prendre en charge les types de tenseurs f16 et bf16 pour l'opérateur concat, en plus de la prise en charge existante de f32 et i32. Cette mise à jour inclut des modèles de noyau spécialisés, des accesseurs de pipeline mis à jour et une dispatch de noyau basée sur le type améliorée, avec l'assistance de pi:llama.cpp/Qwen3.6-27B.

Importance 1/3 Confiance 2/3 llama.cpp API & product launches Inference efficiency Open weights

Lire l'original