Astuce : utilisez cette PR de llama.cpp pour améliorer le PP sur Intel ARC

Une demande de tirage communautaire pour llama.cpp améliore considérablement la vitesse de traitement des invites pour les utilisateurs d'Intel ARC, bénéficiant spécifiquement au matériel comme le B580. Le contributeur a optimisé le code avec l'aide de Claude pour accélérer la gestion du contexte.

Le traitement d'une conversation de contexte 116k est passé de 510 secondes (245t/s) à 262 secondes (462t/s) en utilisant Qwen3.6 35B A3B Q5_K_XL.
L'optimisation prend actuellement en charge le cache KV F16, avec des plans pour étendre la prise en charge d'autres quantifications plus tard.

Cette amélioration rapproche le matériel Intel ARC de son plein potentiel grâce aux contributions continues de la communauté.