Un usuario de r/LocalLLaMA pregunta cómo reducir el tiempo de procesamiento de aproximadamente 10 segundos requerido para un prompt del sistema de 7.1k tokens en cada nueva sesión al usar Ornith 35b con llama.cpp.

  • El usuario está ejecutando Ornith 35b con llama.cpp en una configuración Strix Halo (WIN10).
  • La configuración actual procesa todo el prompt del sistema de 7k tokens para cada nueva sesión, lo que causa una latencia significativa.
  • La línea de comandos proporcionada incluye indicadores como `--cache-ram 8192`, `--cache-reuse 256` y `--kv-unified`.

El usuario busca una solución para almacenar en caché el prompt del sistema estático con el fin de mejorar los tiempos de respuesta para su agente PI.