La version b9820 de llama.cpp introduit des améliorations de performances en réintroduisant moins de synchronisations lors du calcul fractionné, ciblant spécifiquement les backends CUDA. Cette mise à jour fournit également des binaires précompilés pour macOS, Linux, Windows, Android et openEuler sur CPU, GPU et accélérateurs matériels spécialisés.
- Améliore les performances CUDA via une réduction des synchronisations entre tokens.
- Ajoute la capacité de copie CPU-to-CUDA à ggml_backend_cuda_cpy_tensor_async().
- Assouplit les exigences de synchronisation entre les copies d'entrée sur les backends pris en charge comme CUDA.
- Échange la copie synchrone avec une fonction de copie asynchrone et ajoute des garde-macro pour les builds non-CUDA.
- Réorganise la détection du backend dans ggml-backend.cpp pour éviter les conflits de liaison.
- Corrige les bugs de pipeline parallèle du backend hip en ajoutant des synchronisations mono-GPU dans des configurations multi-GPU.
- Exclut hip/MUSA de l'optimisation de copie fractionnée CPU vers GPU split comme mesure préventive.
La version permet une inférence plus rapide sur les appareils CUDA grâce à des opérations asynchrones optimisées tout en maintenant la compatibilité sur un large éventail de systèmes d'exploitation et de backends matériels.