Caché de KV adaptativo a la recencia/frecuencia para el servicio de LLM
Un nuevo método de caché de KV asigna dinámicamente el espacio de caché entre bloques usados recientemente y con frecuencia para mejorar la eficiencia. Aumenta la tasa de aciertos del caché KV hasta un 10,8 % y reduce el tiempo hasta el primer token hasta un 12,6 % en cargas de trabajo sintéticas, con ganancias del 2,1 % y 2,0 % en tareas de conversación del mundo real.