TIS utilise l'importance des tokens apprise pour compresser le cache KV avec une précision NIAH de 100% pour un budget de 50%

Un nouveau mécanisme appelé Token Importance Scoring (TIS) applient un apprentissage conscient des contraintes pour identifier et conserver les tokens importants afin d'assurer une compression efficace du cache KV dans les grands modèles de langage. L'approche utilise la contrainte hard anchor pour empêcher les chemins d'optimisation triviaux, permettant à la descente de gradient de déterminer efficacement l'importance des tokens.

Atteint 100% de précision sur la tâche de récupération synthétique NIAH avec un modèle appris et un budget de cache de 50%.
Atteint 52,8% sur le benchmark LITM de QA sémantique à un budget de 50% sans entraînement spécifique aux requêtes.
Trois points de contrôle sont disponibles, y compris un modèle principal (tis-stage3-ert) et une variante de compression extrême (tis-v8b-hard-anchor).
Validé sur du matériel grand public, spécifiquement exécuté sur une RTX 5070 avec 8 Go de VRAM en utilisant Mistral-7B-v0.3.

Le système démontre que l'importance apprise peut égaler la performance oracle sur des tâches structurelles tout en restant réalisable pour les GPU grand public.