Le projet llama.cpp a publié la version b9873, qui traite une erreur d'assertion critique survenant lors des opérations de graphe lorsque le tampon de rotation clé/valeur n'est pas alloué.

  • Corrige un arrêt provoqué par l'appel de ggml_backend_buffer_is_host() sur un tampon NULL alors que le pointeur de tenseur n'est pas NULL mais que le tampon n'est pas alloué.
  • Ajoute une vérification pour s'assurer que le tampon est alloué avant de traiter les entrées k_rot/v_rot, en cohérence avec les vérifications existantes pour les entrées kq_mask.
  • Résout le problème #25191 lié au passage d'injection KV du décodage spéculatif DFlash.

Ce changement empêche les plantages dans les workflows qui stockent K/V sans attention, tels que certains passages de décodage spéculatif, garantissant ainsi une exécution stable.