Una solicitud de extracción (pull request) de la comunidad para llama.cpp mejora significativamente la velocidad de procesamiento de prompts para usuarios de Intel ARC, beneficiando específicamente al hardware como el B580. El contribuyente optimizó el código con la asistencia de Claude para acelerar el manejo del contexto.
- Procesar una conversación de contexto de 116k bajó de 510 segundos (245 t/s) a 262 segundos (462 t/s) usando Qwen3.6 35B A3B Q5_K_XL.
- La optimización actualmente soporta caché KV F16, con planes de extender el soporte a otras cuantizaciones más adelante.
Esta mejora acerca el hardware Intel ARC a su potencial completo mediante contribuciones continuas de la comunidad.