O projeto llama.cpp lançou a versão b9873, que aborda uma falha crítica de asserção que ocorre durante operações do grafo quando o buffer de rotação de chave/valor não está alocado.
- Corrige um abort causado ao chamar ggml_backend_buffer_is_host() em um buffer NULL quando o ponteiro do tensor é não-nulo, mas o buffer não está alocado.
- Adiciona uma verificação para garantir a alocação do buffer antes de processar as entradas k_rot/v_rot, consistente com as verificações existentes para as entradas kq_mask.
- Resolve a issue #25191 relacionada à passagem de injeção KV da decodificação especulativa DFlash.
Esta mudança previne crashes em fluxos de trabalho que armazenam K/V sem atenção (attention), como passagens específicas de decodificação especulativa, garantindo execução estável.