llama.cppへのコミュニティによるプルリクエストは、特にB580などのハードウェアにとって有益な、Intel ARCユーザーのプロンプト処理速度を大幅に向上させます。コントリビューターはClaudeの支援を受けてコードを最適化し、コンテキスト処理を高速化しました。

  • Qwen3.6 35B A3B Q5_K_XLを使用して、116kコンテキストの会話を処理する時間が510秒(245t/s)から262秒(462t/s)に短縮されました。
  • この最適化は現在F16 KVキャッシュをサポートしており、後で他の量子化形式へのサポート拡張が計画されています。

この改善により、継続的なコミュニティの貢献を通じて、Intel ARCハードウェアはその潜在能力をより引き出すことができます。