TIS는 학습된 토큰 중요도를 사용하여 50% 예산에서 100% NIAH 정확도로 KV 캐시를 압축합니다

토큰 중요도 스코어링(TIS)이라는 새로운 메커니즘은 제약 조건 인식 학습을 적용하여 대규모 언어 모델에서 효율적인 KV 캐시 압축을 위해 중요한 토큰을 식별하고 유지합니다. 이 접근 방식은 자명한 최적화 경로를 방지하기 위해 하드 앵커 강제(hard anchor forcing)를 활용하며, 이를 통해 그래디언트 하강이 토큰의 중요도를 효과적으로 결정할 수 있습니다.

50% 캐시 예산으로 학습된 모델이 NIAH 합성 검색 작업에서 100% 정확도를 달성합니다.
쿼리별 학습 없이 50% 예산에서 LITM 시맨틱 QA 벤치마크에서 52.8%를 달성합니다.
주요 모델(tis-stage3-ert)과 극단적 압축 변형(tis-v8b-hard-anchor)을 포함한 세 가지 체크포인트가 제공됩니다.
소비자 하드웨어, 구체적으로 8GB VRAM을 갖춘 RTX 5070에서 Mistral-7B-v0.3을 사용하여 검증되었습니다.

이 시스템은 학습된 중요도가 구조적 작업에서 오라클 성능과 맞먹는다는 것을 보여주면서 소비자 GPU에서도 실행 가능함을 입증합니다.