TISは学習されたトークン重要度を用いて、50%の予算で100%のNIAH精度でKVキャッシュを圧縮する

トークン重要度スコアリング（TIS）と呼ばれる新しいメカニズムは、制約対応学習を適用して、大規模言語モデルにおける効率的なKVキャッシュ圧縮のために重要なトークンを特定し保持します。このアプローチは、自明な最適化パスを防ぐためにハードアンカー強制を利用し、勾配降下によってトークンの重要度を効果的に決定可能にしています。

50%のキャッシュ予算で学習済みモデルを用い、NIAH合成検索タスクにおいて100%の精度を達成します。
クエリ固有のトレーニングなしで、50%の予算においてLITMセマンティックQAベンチマークで52.8%に到達します。
主要モデル（tis-stage3-ert）と極端圧縮バリアント（tis-v8b-hard-anchor）を含む、3つのチェックポイントが利用可能です。
コンシューマーハードウェアで検証されており、具体的にはMistral-7B-v0.3を用いて8GB VRAMのRTX 5070上で動作しています。

このシステムは、構造的なタスクにおいて学習された重要度がオラクルのパフォーマンスに匹敵することを示しつつ、コンシューマーGPUにとって実行可能であることを示しています。