Проект llama.cpp выпустил версию b9847, которая включает исправление для Gemma E4B MTP FlashAttention на CUDA и удаление неиспользуемого объявления шаблона.
- Исправлено Gemma E4B MTP FlashAttention в бэкенде CUDA (#25148)
- Удалено неиспользуемое объявление шаблона
- Доступны бинарные файлы для macOS Apple Silicon (arm64)
- Доступны бинарные файлы для macOS Intel (x64)
- Предоставлен XCFramework для iOS
- Включены сборки CPU x64 и arm64 для Ubuntu
- Доступны сборки Ubuntu Vulkan, ROCm 7.2, OpenVINO, SYCL FP32 и SYCL FP16
- Выпущена сборка CPU arm64 для Android
- Предоставлены сборки CPU x64 и arm64 для Windows
- Включены сборки CUDA 12.4 и 13.3 для Windows с DLL
- Доступны сборки Vulkan, OpenVINO, SYCL и HIP для Windows
- Сборки openEuler x86 и aarch64 для процессоров 310p и 910b (ACL Graph)
- Выпущен общий бинарный файл UI