Un nuevo algoritmo de programación, Smallest Volume First (SVF), reduce la latencia de inferencia de LLM optimizando la gestión de la caché de claves y valores. El análisis teórico muestra una relación competitiva en el peor caso reducida de 48 a 5, con SVF de 1 bit logrando un rendimiento sólido utilizando información mínima. Las evaluaciones en modelos Llama-3.1 confirman mejoras tanto en la latencia promedio como en la latencia de cola, con el enfoque integrado en vLLM.