トークン重要度スコアリング(TIS)と呼ばれる新しいメカニズムは、制約対応学習を適用して、大規模言語モデルにおける効率的なKVキャッシュ圧縮のために重要なトークンを特定し保持します。このアプローチは、自明な最適化パスを防ぐためにハードアンカー強制を利用し、勾配降下によってトークンの重要度を効果的に決定可能にしています。

  • 50%のキャッシュ予算で学習済みモデルを用い、NIAH合成検索タスクにおいて100%の精度を達成します。
  • クエリ固有のトレーニングなしで、50%の予算においてLITMセマンティックQAベンチマークで52.8%に到達します。
  • 主要モデル(tis-stage3-ert)と極端圧縮バリアント(tis-v8b-hard-anchor)を含む、3つのチェックポイントが利用可能です。
  • コンシューマーハードウェアで検証されており、具体的にはMistral-7B-v0.3を用いて8GB VRAMのRTX 5070上で動作しています。

このシステムは、構造的なタスクにおいて学習された重要度がオラクルのパフォーマンスに匹敵することを示しつつ、コンシューマーGPUにとって実行可能であることを示しています。