llama.cpp b9828 release : améliorations de l'attention flash OpenCL et nouveaux binaires
La version b9828 de llama.cpp introduit des améliorations significatives d'OpenCL, en particulier une refonte des noyaux Flash Attention pour les précisions f16 et f32. Cette mise à jour inclut de nouveaux noyaux de prépassage de préfixe ainsi que la prise en charge des formats de quantification q4_0 et q8_0.