La version b9828 de llama.cpp introduit des améliorations significatives d'OpenCL, en particulier une refonte des noyaux Flash Attention pour les précisions f16 et f32. Cette mise à jour inclut de nouveaux noyaux de prépassage de préfixe ainsi que la prise en charge des formats de quantification q4_0 et q8_0.
- Refonte du noyau FA pour f16 et f32 avec une logique d'alignement de tuiles et de masquage optimisée.
- Ajout de noyaux FA pour les quantifications q4_0 et q8_0, incluant les noyaux de déquantification et la prise en charge des tenseurs SOA.
- Introduction d'une table de réglage des tuiles FA avec capacités de remplacement et correction de la gestion de l'infini pour -cl-finite-math-only.
- Fourniture de binaires précompilés pour macOS (Apple Silicon/Intel), Linux (CPU/Vulkan/ROCm/OpenVINO/SYCL), Windows (CPU/CUDA/Vulkan/HIP/OpenVINO/SYCL), Android et openEuler.
Cette version permet une inférence plus efficace sur le matériel compatible OpenCL en optimisant les motifs d'accès à la mémoire et en prenant en charge des types de quantification supplémentaires.