El proyecto llama.cpp ha lanzado la versión b9873, que aborda un fallo crítico de aserción que ocurre durante las operaciones del grafo cuando el búfer de rotación de clave/valor no está asignado.
- Corrige una interrupción causada por llamar a ggml_backend_buffer_is_host() en un búfer NULL cuando el puntero del tensor es distinto de nulo pero el búfer no está asignado.
- Añade una protección para verificar la asignación del búfer antes de procesar las entradas k_rot/v_rot, consistente con las comprobaciones existentes para las entradas kq_mask.
- Resuelve el problema #25191 relacionado con el paso de inyección KV de la decodificación especulativa DFlash.
Este cambio previene fallos en flujos de trabajo que almacenan K/V sin atención, como ciertos pasos de decodificación especulativa, asegurando una ejecución estable.