llama.cpp 프로젝트는 키/값 회전 버퍼가 할당되지 않았을 때 그래프 연산 중에 발생하는 치명적인 어설션 실패를 해결하는 버전 b9873을 출시했습니다.

  • 텐서 포인터는 NULL이 아니지만 버퍼가 할당되지 않은 경우 NULL 버퍼에 대해 ggml_backend_buffer_is_host()를 호출하여 발생한 중단 문제를 수정했습니다.
  • k_rot/v_rot 입력 처리 전에 버퍼 할당을 확인하는 가드를 추가하여, 기존 kq_mask 입력에 대한 확인과 일관성을 맞추었습니다.
  • DFlash 추론 디코딩의 KV-인젝션 패스와 관련된 이슈 #25191을 해결했습니다.

이 변경은 특정 추론 디코딩 패스 등 주의(attention) 없이 K/V를 저장하는 워크플로우에서의 충돌을 방지하여 안정적인 실행을 보장합니다.