ヒント: llama.cppのPRを使用してIntel ARCでのPPを改善する

llama.cppへのコミュニティによるプルリクエストは、特にB580などのハードウェアにとって有益な、Intel ARCユーザーのプロンプト処理速度を大幅に向上させます。コントリビューターはClaudeの支援を受けてコードを最適化し、コンテキスト処理を高速化しました。

Qwen3.6 35B A3B Q5_K_XLを使用して、116kコンテキストの会話を処理する時間が510秒（245t/s）から262秒（462t/s）に短縮されました。
この最適化は現在F16 KVキャッシュをサポートしており、後で他の量子化形式へのサポート拡張が計画されています。

この改善により、継続的なコミュニティの貢献を通じて、Intel ARCハードウェアはその潜在能力をより引き出すことができます。