Un nuevo mecanismo llamado Token Importance Scoring (TIS) aplica aprendizaje consciente de restricciones para identificar y retener tokens importantes para una compresión eficiente del caché KV en modelos de lenguaje grandes. El enfoque utiliza la imposición de anclajes duros para evitar caminos de optimización triviales, permitiendo que el descenso por gradiente determine eficazmente la significancia del token.
- Alcanza una precisión del 100% en la tarea de recuperación sintética NIAH con un modelo aprendido y un presupuesto de caché del 50%.
- Alcanza el 52.8% en la evaluación semántica LITM con un presupuesto del 50% sin entrenamiento específico para consultas.
- Hay tres puntos de control disponibles, incluyendo un modelo principal (tis-stage3-ert) y una variante de compresión extrema (tis-v8b-hard-anchor).
- Validado en hardware de consumo, específicamente ejecutándose en una RTX 5070 con 8GB VRAM usando Mistral-7B-v0.3.
El sistema demuestra que la importancia aprendida puede igualar el rendimiento del oráculo en tareas estructurales mientras sigue siendo viable para GPUs de consumo.