Новый механизм под названием Token Importance Scoring (TIS) применяет обучение с учетом ограничений для идентификации и сохранения важных токенов для эффективного сжатия KV-кэша в больших языковых моделях. Подход использует принудительное задание жестких якорей, чтобы предотвратить тривиальные пути оптимизации, позволяя градиентному спуску эффективно определять значимость токенов.
- Достигает точности 100% на синтетической задаче извлечения NIAH с обученной моделью при бюджете кэша 50%.
- Показывает результат 52.8% на семантическом QA-бенчмарке LITM при бюджете 50% без специфичного для запроса обучения.
- Доступны три контрольные точки, включая основную модель (tis-stage3-ert) и вариант экстремального сжатия (tis-v8b-hard-anchor).
- Протестировано на потребительском оборудовании, в частности работает на RTX 5070 с 8GB VRAM с использованием Mistral-7B-v0.3.
Система демонстрирует, что выученная важность может соответствовать производительности оракула на структурных задачах, оставаясь выполнимой для потребительских GPU.