Пользователь на r/LocalLLaMA спрашивает, как сократить примерно 10-секундное время обработки системного промпта длиной в 7.1k токенов для каждой новой сессии при использовании Ornith 35b с llama.cpp.

  • Пользователь запускает Ornith 35b с llama.cpp на конфигурации Strix Halo (WIN10).
  • Текущая конфигурация обрабатывает весь системный промпт длиной в 7k токенов для каждой новой сессии, что вызывает значительные задержки.
  • Предоставленная командная строка включает флаги `--cache-ram 8192`, `--cache-reuse 256` и `--kv-unified`.

Пользователь ищет решение для кэширования статического системного промпта, чтобы улучшить время отклика для своего PI-агента.