Lanzamiento b9828 de llama.cpp: mejoras en Flash Attention para OpenCL y nuevos binarios
El lanzamiento b9828 de llama.cpp introduce mejoras significativas en OpenCL, específicamente reestructurando los kernels de Flash Attention para precisión f16 y f32. Esta actualización incluye nuevos kernels de prefill prepass y soporte para formatos de cuantización q4_0 y q8_0.