InfoKV: Compresión de caché KV consciente de la información para razonamiento largo
Los investigadores presentan InfoKV, un marco de trabajo consciente de la entropía que comprime los cachés de clave-valor combinando la incertidumbre predictiva a nivel de token con puntuaciones de atención para mejorar el razonamiento de contexto largo.