Um pull request da comunidade para o llama.cpp melhora significativamente a velocidade de processamento de prompts para usuários do Intel ARC, beneficiando especificamente hardware como o B580. O contribuidor otimizou o código com assistência do Claude para acelerar o manuseio do contexto.

  • Processar uma conversa de contexto de 116k caiu de 510 segundos (245 t/s) para 262 segundos (462 t/s) usando Qwen3.6 35B A3B Q5_K_XL.
  • A otimização atualmente suporta cache KV F16, com planos de estender o suporte a outras quantizações mais tarde.

Esta melhoria aproxima o hardware Intel ARC de seu potencial total através de contribuições contínuas da comunidade.