llama.cpp b9862 リリース: CUDA最適化とマルチプラットフォームバイナリ

llama.cppプロジェクトはバージョンb9862をリリースしました。これはgated_delta_net演算のパフォーマンス最適化と、macOS、Linux、Windows、Android、openEuler向けのビルド済みバイナリを提供します。

gated_delta_net -> view -> cpy パターンを検出することにより、gated_delta_net 後の冗長なCUDAコピーを削除します。
CUDA GDNカーネルが中間の末尾書き込みをスキップして、再帰キャッシュに直接状態スナップショットを書き込めるようにしました。
このリリースではmacOS Apple Silicon向けのKleidiAIサポートを無効化しています。
CPU、Vulkan、ROCm 7.2、OpenVINO、SYCLバックエンドを搭載したUbuntu x64/arm64/s390x向けバイナリを提供します。
CPU、OpenCL Adreno、CUDA 12/13、Vulkan、OpenVINO、SYCL、HIP向けのWindowsビルドを含みます。

このアップデートは、サポートされているGPUアーキテクチャでの推論効率を向上させながら、さまざまなオペレーティングシステムやハードウェアアクセラレータにわたる広範な互換性を維持します。