Los investigadores presentan InfoKV, un marco de trabajo consciente de la entropía que comprime los cachés de clave-valor combinando la incertidumbre predictiva a nivel de token con puntuaciones de atención para mejorar el razonamiento de contexto largo.

  • Introduce "Influencia hacia adelante" para medir cómo los tokens comprimidos afectan a contextos futuros, revelando que los tokens de alta incertidumbre influyen más en contextos distantes que los seleccionados por atención.
  • Integra la evolución de representaciones capa por capa y puntuaciones de entropía con las puntuaciones de atención durante el proceso de razonamiento.
  • Los experimentos en Llama-3.1, Llama-3.2 y DeepSeek-R1 muestran ganancias de rendimiento consistentes sobre métodos existentes tanto en escenarios de prellenado largo como de decodificación.

Este enfoque aborda la limitación de depender únicamente de los pesos de atención al incorporar señales info-teóricas, mejorando así la eficiencia y efectividad de los modelos de lenguaje grandes en el manejo de tareas de razonamiento largo.