Проект llama.cpp выпустил версию b9873, которая устраняет критический сбой проверки утверждения (assertion failure), возникающий во время операций графа, когда буфер вращения ключа/значения не выделен.

  • Исправлено прерывание работы, вызванное обращением к ggml_backend_buffer_is_host() для нулевого указателя (NULL buffer), когда указатель тензора не равен нулю, но буфер не выделен.
  • Добавлена проверка выделения буфера перед обработкой входных данных k_rot/v_rot, что согласуется с существующими проверками для входных данных kq_mask.
  • Решена проблема #25191, связанная с проходом инъекции KV в DFlash при спекулятивном декодировании.

Это изменение предотвращает сбои в рабочих процессах, которые сохраняют K/V без внимания (attention), такие как определенные проходы спекулятивного декодирования, обеспечивая стабильное выполнение.