InfoKV: Сжатие KV-кэша с учётом информации для длинных рассуждений

Исследователи представляют InfoKV, фреймворк, учитывающий энтропию, который сжимает ключ-значения кэши, объединяя предиктивную неопределённость на уровне токенов с баллами внимания для улучшения рассуждений в длинном контексте.

Вводится «Прямое влияние» для измерения того, как сжатые токены влияют на будущие контексты, выявляя, что токены с высокой неопределённостью влияют на удалённые контексты больше, чем выбранные вниманием.
Интегрирует эволюцию представлений на уровне слоёв и баллы энтропии с баллами внимания в процессе рассуждения.
Эксперименты на Llama-3.1, Llama-3.2 и DeepSeek-R1 демонстрируют последовательное улучшение производительности по сравнению с существующими методами как в сценариях длинного префиллинга, так и декодирования.

Этот подход устраняет ограничение, связанное с опорой исключительно на веса внимания, за счёт включения информационно-теоретических сигналов, тем самым повышая эффективность и результативность больших языковых моделей при выполнении задач длинных рассуждений.