Проект llama.cpp выпустил версию b9873, которая устраняет критический сбой проверки утверждения (assertion failure), возникающий во время операций графа, когда буфер вращения ключа/значения не выделен.
- Исправлено прерывание работы, вызванное обращением к ggml_backend_buffer_is_host() для нулевого указателя (NULL buffer), когда указатель тензора не равен нулю, но буфер не выделен.
- Добавлена проверка выделения буфера перед обработкой входных данных k_rot/v_rot, что согласуется с существующими проверками для входных данных kq_mask.
- Решена проблема #25191, связанная с проходом инъекции KV в DFlash при спекулятивном декодировании.
Это изменение предотвращает сбои в рабочих процессах, которые сохраняют K/V без внимания (attention), такие как определенные проходы спекулятивного декодирования, обеспечивая стабильное выполнение.