Проект llama.cpp выпустил версию b9847, которая включает исправление для Gemma E4B MTP FlashAttention на CUDA и удаление неиспользуемого объявления шаблона.

  • Исправлено Gemma E4B MTP FlashAttention в бэкенде CUDA (#25148)
  • Удалено неиспользуемое объявление шаблона
  • Доступны бинарные файлы для macOS Apple Silicon (arm64)
  • Доступны бинарные файлы для macOS Intel (x64)
  • Предоставлен XCFramework для iOS
  • Включены сборки CPU x64 и arm64 для Ubuntu
  • Доступны сборки Ubuntu Vulkan, ROCm 7.2, OpenVINO, SYCL FP32 и SYCL FP16
  • Выпущена сборка CPU arm64 для Android
  • Предоставлены сборки CPU x64 и arm64 для Windows
  • Включены сборки CUDA 12.4 и 13.3 для Windows с DLL
  • Доступны сборки Vulkan, OpenVINO, SYCL и HIP для Windows
  • Сборки openEuler x86 и aarch64 для процессоров 310p и 910b (ACL Graph)
  • Выпущен общий бинарный файл UI