Проект llama.cpp выпустил версию b9851, которая включает исправление для CUDA, предотвращающее ошибки усечения целых чисел и переполнения в ядре flash_attn_mask_to_KV_max. Это обновление решает проблемы, связанные с шагами маски KQ внутри указанного ядра.

  • Доступны бинарные файлы для macOS Apple Silicon (arm64), при этом поддержка KleidiAI отключена.
  • Сборки для Linux охватывают Ubuntu x64 и arm64 для CPU, Vulkan, ROCm 7.2, OpenVINO и SYCL FP32/FP16.
  • Предоставлены бинарные файлы Android arm64 (CPU) для мобильных устройств.
  • Релизы для Windows включают варианты для CPU, OpenCL Adreno, CUDA 12/13, Vulkan, OpenVINO, SYCL и HIP.
  • Указаны сборки openEuler для архитектур x86 и aarch64, при этом некоторые конфигурации отключены.
  • В артефакты выпуска также включен автономный бинарный файл UI.

Этот выпуск обеспечивает стабильность для пользователей CUDA за счет исправления ошибок вычислений и предоставляет комплексные предварительно собранные бинарные файлы для основных операционных систем и аппаратных ускорителей.