llama.cpp b9828 release : améliorations de l'attention flash OpenCL et nouveaux binaires

La version b9828 de llama.cpp introduit des améliorations significatives d'OpenCL, en particulier une refonte des noyaux Flash Attention pour les précisions f16 et f32. Cette mise à jour inclut de nouveaux noyaux de prépassage de préfixe ainsi que la prise en charge des formats de quantification q4_0 et q8_0.

Refonte du noyau FA pour f16 et f32 avec une logique d'alignement de tuiles et de masquage optimisée.
Ajout de noyaux FA pour les quantifications q4_0 et q8_0, incluant les noyaux de déquantification et la prise en charge des tenseurs SOA.
Introduction d'une table de réglage des tuiles FA avec capacités de remplacement et correction de la gestion de l'infini pour -cl-finite-math-only.
Fourniture de binaires précompilés pour macOS (Apple Silicon/Intel), Linux (CPU/Vulkan/ROCm/OpenVINO/SYCL), Windows (CPU/CUDA/Vulkan/HIP/OpenVINO/SYCL), Android et openEuler.

Cette version permet une inférence plus efficace sur le matériel compatible OpenCL en optimisant les motifs d'accès à la mémoire et en prenant en charge des types de quantification supplémentaires.