Um novo mecanismo chamado Token Importance Scoring (TIS) aplica aprendizado consciente de restrições para identificar e reter tokens importantes para a compressão eficiente do cache KV em grandes modelos de linguagem. A abordagem utiliza forçamento de âncoras rígidas para evitar caminhos de otimização triviais, permitindo que o descenso por gradiente determine eficazmente a significância do token.
- Alcança precisão de 100% na tarefa de recuperação sintética NIAH com um modelo aprendido e orçamento de cache de 50%.
- Alcança 52.8% na avaliação semântica LITM com orçamento de 50% sem treinamento específico para consulta.
- Três checkpoints estão disponíveis, incluindo um modelo principal (tis-stage3-ert) e uma variante de compressão extrema (tis-v8b-hard-anchor).
- Validado em hardware de consumo, especificamente rodando em uma RTX 5070 com 8GB VRAM usando Mistral-7B-v0.3.
O sistema demonstra que a importância aprendida pode igualar o desempenho do oráculo em tarefas estruturais enquanto permanece viável para GPUs de consumo.