github llama.cpp · il y a 8 j · inference

llama.cpp version b9767 ajoute le support GPU et multi-plateforme

Traduit de English → Français

La version b9767 de llama.cpp améliore l'inférence MTP en utilisant des chemins mat-vec pour les petits lots et inclut un support GPU mis à jour. La version fournit des binaires pour macOS, Linux, Android, Windows et openEuler sur plusieurs architectures et API incluant Vulkan, CUDA, OpenVINO et SYCL.

Importance 1/3 Confiance 2/3 llama.cpp Inference efficiency

Lire l'original