github llama.cpp · 12일 전 · inference

llama.cpp b9731 릴리스: 성능 최적화 및 크로스 플랫폼 바이너리

번역 English → 한국어

llama.cpp 버전 b9731은 토큰 정렬 오버헤드를 줄이기 위해 std::partial_sort를 사용한 최적화를 도입하여 top-n 토큰 선택의 성능을 8.555ms에서 0.704ms로 개선했습니다. 이번 릴리스에는 macOS, Linux, Android, Windows 및 openEuler용 미리 빌드된 바이너리가 포함되어 있으며, 여러 아키텍처와 하드웨어 가속 옵션을 지원합니다.

중요도 1/3 신뢰도 2/3 llama.cpp Inference efficiency

원문 보기