टोकन इम्पोर्टेंस स्कोरिंग (TIS) नामक एक नया तंत्र बड़े भाषा मॉडलों में KV कैश के दक्षतापूर्ण संकुचन के लिए महत्वपूर्ण टोकन की पहचान और रखरखाव करने के लिए प्रतिबंध-जागरूक शिक्षण लागू करता है। यह दृष्टिकोण त्रivial अनुकूलन पथों को रोकने के लिए कठोर एंकर फोर्सिंग का उपयोग करता है, जिससे ग्रेडिएंट डाउनलोड प्रभावी ढंग से टोकन महत्व निर्धारित कर सकता है।

  • सीखे गए मॉडल के साथ 50% कैश बजट पर NIAH सिंथेटिक रीट्रीवल कार्य में 100% सटीकता प्राप्त करता है।
  • क्वेरी-विशिष्ट प्रशिक्षण के बिना 50% बजट पर LITM सेमांटिक QA बेंचमार्क पर 52.8% तक पहुंचता है।
  • तीन चेकपॉइंट उपलब्ध हैं, जिसमें मुख्य मॉडल (tis-stage3-ert) और अत्यधिक संकुचन विविधता (tis-v8b-hard-anchor) शामिल हैं।
  • उपभोक्ता हार्डवेयर पर मान्य किया गया, विशेष रूप से Mistral-7B-v0.3 का उपयोग करते हुए 8GB VRAM के साथ RTX 5070 पर चल रहा है।

सिस्टम दिखाता है कि सीखा गया महत्व संरचनात्मक कार्यों में ऑरेकल प्रदर्शन के बराबर हो सकता है जबकि उपभोक्ता GPU के लिए व्यावहारिक रहता है।