Mekanisme baru yang disebut Token Importance Scoring (TIS) menerapkan pembelajaran sadar-kendala untuk mengidentifikasi dan mempertahankan token penting bagi kompresi cache KV yang efisien dalam model bahasa besar. Pendekatan ini memanfaatkan paksian jangkar keras (hard anchor forcing) untuk mencegah jalur optimasi sepele, memungkinkan penurunan gradien menentukan kepentingan token secara efektif.

  • Mencapai akurasi 100% pada tugas pengambilan sintetis NIAH dengan model yang dipelajari pada anggaran cache 50%.
  • Mencapai 52,8% pada benchmark QA semantik LITM pada anggaran 50% tanpa pelatihan khusus kueri.
  • Tiga titik pemeriksaan tersedia, termasuk model utama (tis-stage3-ert) dan varian kompresi ekstrem (tis-v8b-hard-anchor).
  • Tervalidasi pada perangkat keras konsumen, khususnya berjalan di RTX 5070 dengan VRAM 8GB menggunakan Mistral-7B-v0.3.

Sistem ini menunjukkan bahwa kepentingan yang dipelajari dapat mencocokkan kinerja oracle pada tugas struktural sambil tetap layak untuk GPU konsumen.