Un nuevo algoritmo de programación, Smallest Volume First (SVF), reduce la latencia de inferencia de LLM optimizando la gestión de la caché de claves y valores. El análisis teórico muestra una relación competitiva en el peor caso reducida de 48 a 5, con SVF de 1 bit logrando un rendimiento sólido utilizando información mínima. Las evaluaciones en modelos Llama-3.1 confirman mejoras tanto en la latencia promedio como en la latencia de cola, con el enfoque integrado en vLLM.
Programación en línea consciente de la geometría para el servicio de LLM
Traducido del English → Español