Авторы предлагают CompressKV — фреймворк, который сжимает ключ-значения (key-value) кэши в больших языковых моделях на основе GQA, выявляя семантические поисковые головы для сохранения критически важных токенов. Этот подход решает проблему снижения производительности, вызванного существующими эвристическими методами вытеснения, которые игнорируют различные функции голов внимания.

  • CompressKV выявляет Семантические Поисковые Головы (SRH), которые захватывают начальные, конечные и семантически важные токены в середине контекста, чтобы выбрать пары KV для сохранения.
  • Фреймворк распределяет бюджеты кэша по слоям на основе офлайн-оценок ошибки вытеснения для каждого слоя.
  • На задачах ответа на вопросы LongBench CompressKV сохраняет более 97% производительности полного кэша, используя лишь 3% KV-кэша.
  • Он достигает точности 90% на задаче Needle-in-a-Haystack при использовании всего 0.7% хранилища KV.

Этот метод демонстрирует улучшенное соотношение ресурсов и производительности для вывода длинноконтекстных LLM, обеспечивая устойчивое развертывание на оборудовании с ограниченными ресурсами.