CompressKV: Compresión de caché KV guiada por recuperación semántica para inferencia eficiente en recursos de LLM de contexto largo
Los autores proponen CompressKV, un marco que comprime las cachés de clave-valor en modelos de lenguaje grandes basados en GQA identificando cabezales de recuperación semántica para retener tokens críticos. Este enfoque aborda la degradación del rendimiento causada por los métodos de desalojo heurísticos existentes que ignoran las funcionalidades distintas de los cabezales de atención.