llama.cpp b9820 release : réduction des synchronisations CUDA et nouveaux binaires

La version b9820 de llama.cpp introduit des améliorations de performances en réintroduisant moins de synchronisations lors du calcul fractionné, ciblant spécifiquement les backends CUDA. Cette mise à jour fournit également des binaires précompilés pour macOS, Linux, Windows, Android et openEuler sur CPU, GPU et accélérateurs matériels spécialisés.

Améliore les performances CUDA via une réduction des synchronisations entre tokens.
Ajoute la capacité de copie CPU-to-CUDA à ggml_backend_cuda_cpy_tensor_async().
Assouplit les exigences de synchronisation entre les copies d'entrée sur les backends pris en charge comme CUDA.
Échange la copie synchrone avec une fonction de copie asynchrone et ajoute des garde-macro pour les builds non-CUDA.
Réorganise la détection du backend dans ggml-backend.cpp pour éviter les conflits de liaison.
Corrige les bugs de pipeline parallèle du backend hip en ajoutant des synchronisations mono-GPU dans des configurations multi-GPU.
Exclut hip/MUSA de l'optimisation de copie fractionnée CPU vers GPU split comme mesure préventive.

La version permet une inférence plus rapide sur les appareils CUDA grâce à des opérations asynchrones optimisées tout en maintenant la compatibilité sur un large éventail de systèmes d'exploitation et de backends matériels.