Los autores proponen CompressKV, un marco que comprime las cachés de clave-valor en modelos de lenguaje grandes basados en GQA identificando cabezales de recuperación semántica para retener tokens críticos. Este enfoque aborda la degradación del rendimiento causada por los métodos de desalojo heurísticos existentes que ignoran las funcionalidades distintas de los cabezales de atención.

  • CompressKV identifica Cabezales de Recuperación Semántica (SRHs) que capturan tokens iniciales, finales y semánticamente importantes en el contexto medio para seleccionar pares KV para retención.
  • El marco asigna presupuestos de caché entre capas basándose en estimaciones offline del error de desalojo por capa.
  • En tareas de respuesta a preguntas de LongBench, CompressKV preserva más del 97% del rendimiento de la caché completa utilizando solo el 3% de la caché KV.
  • Alcanza una precisión del 90% en Needle-in-a-Haystack con solo el 0.7% de almacenamiento KV.

Este método demuestra una mejora en el equilibrio entre recursos y rendimiento para la inferencia de LLM de contexto largo, permitiendo un despliegue sostenible en hardware con recursos limitados.