InfoKV: Сжатие KV-кэша с учётом информации для длинных рассуждений
Исследователи представляют InfoKV, фреймворк, учитывающий энтропию, который сжимает ключ-значения кэши, объединяя предиктивную неопределённость на уровне токенов с баллами внимания для улучшения рассуждений в длинном контексте.