一种名为 Token Importance Scoring (TIS) 的新机制应用了约束感知学习,以识别并保留重要 token,从而在大语言模型中高效压缩 KV 缓存。该方法利用硬锚点强制来防止平凡的优化路径,使梯度下降能够有效确定 token 的重要性。
- 在预算为 50% 的情况下,使用学习到的模型在 NIAH 合成检索任务上达到 100% 准确率。
- 在没有针对查询特定训练的情况下,以 50% 的预算在 LITM 语义 QA 基准测试中达到 52.8%。
- 提供三个检查点,包括主模型 (tis-stage3-ert) 和极端压缩变体 (tis-v8b-hard-anchor)。
- 在消费级硬件上验证,具体是在使用 Mistral-7B-v0.3 的 RTX 5070 8GB VRAM 上运行。
该系统表明,学习到的重要性可以在结构任务上匹配 oracle 性能,同时对于消费级 GPU 来说也是可行的。