Lançamento b9828 do llama.cpp: Melhorias no Flash Attention via OpenCL e novos binários
O lançamento b9828 do llama.cpp introduz melhorias significativas no OpenCL, reestruturando especificamente os kernels do Flash Attention para precisão f16 e f32. Esta atualização inclui novos kernels de pré-prefill e suporte para formatos de quantização q4_0 e q8_0.