CompressKV: Сжатие KV-кэша, направляемое семантическим поиском, для ресурсоэффективного вывода длинноконтекстных LLM
Авторы предлагают CompressKV — фреймворк, который сжимает ключ-значения (key-value) кэши в больших языковых моделях на основе GQA, выявляя семантические поисковые головы для сохранения критически важных токенов. Этот подход решает проблему снижения производительности, вызванного существующими эвристическими методами вытеснения, которые игнорируют различные функции голов внимания.