La version b9820 de llama.cpp introduit des améliorations de performances en réintroduisant moins de synchronisations lors du calcul fractionné, ciblant spécifiquement les backends CUDA. Cette mise à jour fournit également des binaires précompilés pour macOS, Linux, Windows, Android et openEuler sur CPU, GPU et accélérateurs matériels spécialisés.

  • Améliore les performances CUDA via une réduction des synchronisations entre tokens.
  • Ajoute la capacité de copie CPU-to-CUDA à ggml_backend_cuda_cpy_tensor_async().
  • Assouplit les exigences de synchronisation entre les copies d'entrée sur les backends pris en charge comme CUDA.
  • Échange la copie synchrone avec une fonction de copie asynchrone et ajoute des garde-macro pour les builds non-CUDA.
  • Réorganise la détection du backend dans ggml-backend.cpp pour éviter les conflits de liaison.
  • Corrige les bugs de pipeline parallèle du backend hip en ajoutant des synchronisations mono-GPU dans des configurations multi-GPU.
  • Exclut hip/MUSA de l'optimisation de copie fractionnée CPU vers GPU split comme mesure préventive.

La version permet une inférence plus rapide sur les appareils CUDA grâce à des opérations asynchrones optimisées tout en maintenant la compatibilité sur un large éventail de systèmes d'exploitation et de backends matériels.