全部文章 — korshunov.ai

全部文章页 1 / 11

v2.1.185 中更新了流停滞提示

流停滞提示现在显示“等待 API 响应 · 将在 … 后重试”，并在 20 秒无活动后激活，替换了之前的消息和延迟。

llama.cpp b9741 版本发布新增二进制文件与支持

llama.cpp 版本 b9741 为 macOS、Linux、Android、Windows 和 openEuler 引入了适用于多种架构的新二进制文件。该版本包含对 Vulkan、CUDA 12.4 和 13.3、OpenVINO、SYCL 以及 ROCm 的支持，并更新了 iOS 和 Ubuntu 的版本。

github llama.cpp · 11 天前

修复Windows上test-args-parser的随机失败

通过修改argv覆盖，仅在argc匹配时应用，以防止破坏程序化参数，从而解决Windows上test-args-parser的随机失败问题。这修复了OpenVINO Windows工作流中的fastfail断言，同时保留了真实二进制文件的UTF-8处理。

github llama.cpp · 11 天前

LLaMA.cpp 发布 b9739，新增 Windows OpenCL Adreno ARM64 支持

LLaMA.cpp 版本 b9739 增加了对使用 OpenCL Adreno 的 Windows ARM64 的支持。该版本包含适用于 macOS、Linux、Android、Windows 和 openEuler 的二进制文件，覆盖多种架构和 API，包括 Vulkan、CUDA、OpenVINO 和 SYCL。

github llama.cpp · 11 天前

llama.cpp 发布 b9738：修复 CORS 认证头转发问题并新增二进制构建

llama.cpp 版本 b9738 修复了 CORS 代理，避免转发认证头。此次发布包含适用于 macOS、Linux、Android、Windows 和 openEuler 的二进制构建文件，支持多种架构和硬件加速选项，包括 Vulkan、CUDA、OpenVINO 和 SYCL。

github llama.cpp · 11 天前

ggml 通过分区展平优化 AMX

ggml 项目通过将 n_batch * M 上的分区展平，优化了 AMX 性能，确保所有线程都参与量化。这一改进在 CPU 和 GPU 平台上的各种模型和硬件配置中，将速度提升了最高 1.47 倍，结果显示推理时间一致缩短。

github llama.cpp · 11 天前

GLM-5.2 DSA 索引器修复：标记张量非必需

GLM-5.2 模型的 DSA 索引器在所有层上被错误加载，导致因缺少张量而失败。此次更新将索引器张量标记为 TENSOR_NOT_REQUIRED，使得没有索引器的层可以以 nullptr 形式加载，并启用完整的 MLA 注意力机制。DeepSeek-V3.2 由于采用统一索引，不受影响。

github llama.cpp · 11 天前

Docker 为 s390x 架构提供预构建的 Web UI

已提交一个拉取请求，旨在为 Docker 中的 s390x 架构添加预构建的 Web UI。该更改目前待发布，尚未公开。

github llama.cpp · 12 天前

LLaMA.cpp 发布 b9732：新二进制文件和更新

LLaMA.cpp 发布了版本 b9732，包含适用于 macOS、Linux、Android、Windows 和 openEuler 的更新二进制文件。此次发布包括重构的子节点到路由器通信、唤醒处理修复、改进的 update_status() 以及文档。新构建支持 Vulkan、ROCm、OpenVINO、SYCL 以及在多种架构上的 CUDA 12/13。

github llama.cpp · 12 天前

ggml-webgpu 为 Vulkan 和 NVIDIA 添加 F16 适配器切换

ggml-webgpu 项目已为 Vulkan 和 NVIDIA GPU 添加了半精度 (F16) 支持的适配器切换。此更新提升了在 macOS、Linux、Android、Windows 和 openEuler 等多个平台上兼容硬件的性能，并提供针对 ARM 和 x64 架构的特定构建版本。

github llama.cpp · 12 天前

llama.cpp 发布 b9731：性能优化与跨平台二进制文件

llama.cpp 版本 b9731 引入了使用 std::partial_sort 的优化，以减少令牌排序开销，将 top-n 令牌选择的性能从 8.555ms 提升至 0.704ms。该版本包含适用于 macOS、Linux、Android、Windows 和 openEuler 的预构建二进制文件，支持多种架构和硬件加速选项。

github llama.cpp · 12 天前

llama.cpp 发布 b9730：修复与新二进制文件

llama.cpp 版本 b9730 包含对 Windows 上 UTF-8 处理的修复以及对 ggml_fopen 和 CLI 的改进。该版本为 macOS、Linux、Android、Windows 和 openEuler 提供了适用于多种架构和硬件加速选项（包括 Vulkan、CUDA、OpenVINO 和 SYCL）的二进制文件。

github llama.cpp · 12 天前

LLaMA.cpp 发布 b9729：新二进制文件和平台支持

LLaMA.cpp 发布了版本 b9729，提供适用于 macOS、Linux、Android、Windows 和 openEuler 的二进制文件，涵盖多种架构。该版本包括对 CPU、Vulkan、OpenVINO、SYCL 和 ROCm 的支持，以及一个新的 UI 包。内部对 'webui' 的引用已被移除。

github llama.cpp · 12 天前

LLaMA.cpp b9728 版本新增注释行支持和多平台二进制文件

LLaMA.cpp 版本 b9728 引入了对 --api-key-file 配置中注释行的支持。该版本包含适用于 macOS、Linux、Android、Windows 和 openEuler 的预构建二进制文件，涵盖多种架构和硬件加速选项，包括 Vulkan、CUDA、OpenVINO 和 SYCL。

github llama.cpp · 12 天前

llama.cpp b9726 版本新增 --agent 参数和新平台二进制文件

llama.cpp 版本 b9726 引入了新的 --agent 参数，并移除了冗余的 webui 命名兼容性。该版本包含适用于 macOS、Linux、Android、Windows 和 openEuler 的预编译二进制文件，支持多种架构和硬件加速选项。

github llama.cpp · 12 天前

llama.cpp 发布 b9727：更新 cpp-httplib 至 0.48.0

llama.cpp 版本 b9727 将 cpp-httplib 更新至 0.48.0 版。该版本包含适用于 macOS、Linux、Android、Windows 和 openEuler 的二进制文件，支持多种架构和硬件加速选项，包括 Vulkan、CUDA、OpenVINO 和 SYCL。

github llama.cpp · 12 天前

Docker：构建 UI（#24794）

Docker 项目已添加对构建 UI 组件的支持。此更新还包括在容器配置中使用现有的 APP_VERSION。

github llama.cpp · 12 天前

llama.cpp 发布 b9724，包含错误修复和跨平台二进制文件

llama.cpp 版本 b9724 包含多项错误修复和改进，例如构建修复、area() 函数中的溢出避免以及 get_u32() 中的健全性检查。该版本提供了适用于 macOS（arm64 和 x64）、Linux（x64、arm64、s390x、Vulkan、ROCm、OpenVINO、SYCL）、Android（arm64）、Windows（x64、arm64、CUDA 12/13、Vulkan、OpenVINO、SYCL、HIP）和 openEuler（支持 ACL Graph 的 x86 和 aarch64）的预编译二进制文件，以及一个 UI 包。

github llama.cpp · 12 天前

llama.cpp b9723 版本发布，新增对 Qwen3.5、Qwen3.6 和 Eagle3 的支持

llama.cpp 版本 b9723 通过 Eagle3 引入了对 Qwen3.5 和 Qwen3.6 模型的支持。该版本包括针对混合模型的延迟边界检查点恢复，以及对 API 和命名约定的更新。二进制构建文件适用于 macOS、Linux、Android、Windows 和 openEuler 平台，并提供 CPU、Vulkan、OpenVINO、SYCL 和 ROCm 选项。

github llama.cpp · 12 天前

LLaMA.cpp 发布 b9722：修复与跨平台二进制文件

LLaMA.cpp 版本 b9722 修复了服务器上下文处理中 n_discard 值未绑定的问题。该版本包含适用于 macOS、Linux、Android、Windows 和 openEuler 的预编译二进制文件，支持各种架构以及 Vulkan、CUDA、OpenVINO 和 SYCL 等加速框架。