Выпуск llama.cpp b9828: улучшения Flash Attention для OpenCL и новые бинарные файлы
Выпуск llama.cpp b9828 вносит значительные улучшения в OpenCL, конкретно перерабатывая ядра Flash Attention для точности f16 и f32. Это обновление включает новые ядра предварительного прохода префилла и поддержку форматов квантования q4_0 и q8_0.