Запрос на слияние (pull request) от сообщества для llama.cpp значительно ускоряет обработку промптов для пользователей Intel ARC, особенно для такого оборудования, как B580. Разработчик оптимизировал код при помощи Claude для ускорения обработки контекста.

  • Обработка диалога с контекстом 116k сократилась с 510 секунд (245 токенов/с) до 262 секунд (462 токена/с) на модели Qwen3.6 35B A3B Q5_K_XL.
  • Оптимизация в настоящее время поддерживает KV-кэш F16, с планами расширения поддержки других квантизаций позже.

Это улучшение приближает оборудование Intel ARC к его полному потенциалу благодаря постоянным вкладом сообщества.