TIS usa importância aprendida de tokens para comprimir o cache KV com precisão NIAH de 100% e orçamento de 50%

Um novo mecanismo chamado Token Importance Scoring (TIS) aplica aprendizado consciente de restrições para identificar e reter tokens importantes para a compressão eficiente do cache KV em grandes modelos de linguagem. A abordagem utiliza forçamento de âncoras rígidas para evitar caminhos de otimização triviais, permitindo que o descenso por gradiente determine eficazmente a significância do token.

Alcança precisão de 100% na tarefa de recuperação sintética NIAH com um modelo aprendido e orçamento de cache de 50%.
Alcança 52.8% na avaliação semântica LITM com orçamento de 50% sem treinamento específico para consulta.
Três checkpoints estão disponíveis, incluindo um modelo principal (tis-stage3-ert) e uma variante de compressão extrema (tis-v8b-hard-anchor).
Validado em hardware de consumo, especificamente rodando em uma RTX 5070 com 8GB VRAM usando Mistral-7B-v0.3.

O sistema demonstra que a importância aprendida pode igualar o desempenho do oráculo em tarefas estruturais enquanto permanece viável para GPUs de consumo.