¿Cómo puedo mejorar el tiempo de respuesta almacenando en caché mi prompt del sistema?
Un usuario de r/LocalLLaMA pregunta cómo reducir el tiempo de procesamiento de aproximadamente 10 segundos requerido para un prompt del sistema de 7.1k tokens en cada nueva sesión al usar Ornith 35b con llama.cpp.