Rilis llama.cpp b9828: peningkatan Flash Attention OpenCL dan biner baru
Rilis llama.cpp b9828 memperkenalkan peningkatan signifikan pada OpenCL, khususnya dengan menyusun ulang kernel Flash Attention untuk presisi f16 dan f32. Pembaruan ini mencakup kernel prefill prepass baru serta dukungan untuk format kuantisasi q4_0 dan q8_0.