El proyecto llama.cpp ha lanzado la versión b9873, que aborda un fallo crítico de aserción que ocurre durante las operaciones del grafo cuando el búfer de rotación de clave/valor no está asignado.

  • Corrige una interrupción causada por llamar a ggml_backend_buffer_is_host() en un búfer NULL cuando el puntero del tensor es distinto de nulo pero el búfer no está asignado.
  • Añade una protección para verificar la asignación del búfer antes de procesar las entradas k_rot/v_rot, consistente con las comprobaciones existentes para las entradas kq_mask.
  • Resuelve el problema #25191 relacionado con el paso de inyección KV de la decodificación especulativa DFlash.

Este cambio previene fallos en flujos de trabajo que almacenan K/V sin atención, como ciertos pasos de decodificación especulativa, asegurando una ejecución estable.