llama.cpp 버전 b9731은 토큰 정렬 오버헤드를 줄이기 위해 std::partial_sort를 사용한 최적화를 도입하여 top-n 토큰 선택의 성능을 8.555ms에서 0.704ms로 개선했습니다. 이번 릴리스에는 macOS, Linux, Android, Windows 및 openEuler용 미리 빌드된 바이너리가 포함되어 있으며, 여러 아키텍처와 하드웨어 가속 옵션을 지원합니다.