社区为 llama.cpp 提交的拉取请求(PR)显著提升了 Intel ARC 用户的提示词处理速度,特别使 B580 等硬件受益。贡献者在 Claude 的协助下优化了代码,以加速上下文处理。
- 使用 Qwen3.6 35B A3B Q5_K_XL,处理 116k 上下文的对话时间从 510 秒(245t/s)降至 262 秒(462t/s)。
- 该优化目前支持 F16 KV 缓存,计划稍后扩展对其他量化的支持。
通过持续的社区贡献,这一改进使 Intel ARC 硬件更接近其全部潜力。
社区为 llama.cpp 提交的拉取请求(PR)显著提升了 Intel ARC 用户的提示词处理速度,特别使 B580 等硬件受益。贡献者在 Claude 的协助下优化了代码,以加速上下文处理。
通过持续的社区贡献,这一改进使 Intel ARC 硬件更接近其全部潜力。