fairydreaming объединяет исправления квантованного KV-кэша для DeepSeek V4 в llama.cpp

Пользователь fairydreaming объединил pull requests в свой ветку llama.cpp, чтобы включить поддержку квантованного ключ-значения (KV) кэша для модели DeepSeek V4. Изменения включают исправления из PRs #25247, #25303 и #25202, с некоторыми пропусками корректировок заполнения.

Реализация поддерживает типы квантования Q8_0 и Q4_0 для KV кэшей.
Тесты перплексии на WikiText-2 показывают минимальное снижение по сравнению с базовой линией f16.
Финальные оценки перплексии составили 4.0242 для f16, 4.0304 для Q8_0 и 4.0512 для Q4_0.

Эти обновления позволяют пользователям запускать DeepSeek V4 с уменьшенным использованием памяти через квантованные кэши, сохраняя производительность близкую к модели полной точности.