Адаптивное кэширование КВ на основе новизны и частоты использования для обслуживания моделей языковой обработки

Новый метод кэширования КВ динамически распределяет пространство кэша между блоками, недавно использованными и часто используемыми, чтобы повысить эффективность. Он повышает коэффициент попадания в кэш КВ на 10,8% и снижает время до первого токена на 12,6% на синтетических нагрузках, с ростом на 2,1% и 2,0% на задачах реальных разговоров.