llama.cpp 版本 b9731 引入了使用 std::partial_sort 的优化,以减少令牌排序开销,将 top-n 令牌选择的性能从 8.555ms 提升至 0.704ms。该版本包含适用于 macOS、Linux、Android、Windows 和 openEuler 的预构建二进制文件,支持多种架构和硬件加速选项。
llama.cpp 发布 b9731:性能优化与跨平台二进制文件
译自 English → 中文
llama.cpp 版本 b9731 引入了使用 std::partial_sort 的优化,以减少令牌排序开销,将 top-n 令牌选择的性能从 8.555ms 提升至 0.704ms。该版本包含适用于 macOS、Linux、Android、Windows 和 openEuler 的预构建二进制文件,支持多种架构和硬件加速选项。