KVEraser обеспечивает эффективное локализованное удаление контекста в больших языковых моделях, заменяя только состояния кэша KV для удаленного сегмента на обученные направляющие состояния. Он достигает почти полной переработки производительности на задачах в области знаний при длинах контекста от 1K до 32K, с ростом задержки только на 24%, и превосходит другие приближенные методы при работе с длинными документами в вопросах и ответах, обеспечивая скорость в 3-4 раза превышающую полную переработку.