Новый механизм под названием Token Importance Scoring (TIS) применяет обучение с учетом ограничений для идентификации и сохранения важных токенов для эффективного сжатия KV-кэша в больших языковых моделях. Подход использует принудительное задание жестких якорей, чтобы предотвратить тривиальные пути оптимизации, позволяя градиентному спуску эффективно определять значимость токенов.

  • Достигает точности 100% на синтетической задаче извлечения NIAH с обученной моделью при бюджете кэша 50%.
  • Показывает результат 52.8% на семантическом QA-бенчмарке LITM при бюджете 50% без специфичного для запроса обучения.
  • Доступны три контрольные точки, включая основную модель (tis-stage3-ert) и вариант экстремального сжатия (tis-v8b-hard-anchor).
  • Протестировано на потребительском оборудовании, в частности работает на RTX 5070 с 8GB VRAM с использованием Mistral-7B-v0.3.

Система демонстрирует, что выученная важность может соответствовать производительности оракула на структурных задачах, оставаясь выполнимой для потребительских GPU.