llama.cpp b9814 发布,为 mi50 提供 Vulkan 优化
llama.cpp 项目已发布版本 b9814,其中包含针对 AMD mi50 GPU 的 `mul_mat_vecq` 操作的 Vulkan 优化。此次更新附带了跨多个操作系统和硬件架构的全面预构建二进制文件。
llama.cpp 项目已发布版本 b9814,其中包含针对 AMD mi50 GPU 的 `mul_mat_vecq` 操作的 Vulkan 优化。此次更新附带了跨多个操作系统和硬件架构的全面预构建二进制文件。
Model Context Protocol (MCP) Python SDK 已发布其第三个 Alpha 版本 v2.0.0a3,在保持对稳定版 1.x 用户向后兼容的同时,引入了重大的协议和架构变更。
llama.cpp 项目已发布版本 b9811,其中包含针对 Vulkan 中 conv2d coopmat2 路径的编译器 bug 的修复。根据 NVIDIA 工程师 Jeff Bolz 的建议,此修复方案也应用于基于 CONV_3D 的实现。
llama.cpp 项目发布了 b9810 版本,在 HIP/MUSA 供应商头文件中引入了 `cublasSgemmBatched` 的 CUDA 映射。此次更新附带了适用于 macOS、Linux、Windows、Android 和 openEuler 平台的全面预构建二进制文件。
模型上下文协议 Python SDK 已发布 1.28.1 版本,引入了流处理和传输安全方面的更新。
llama.cpp b9804 版本通过移除硬编码的 2x 扩展因子和无效的参数检查,引入了对 Mamba2 架构的修复,从而支持任意 expand 值。此更改更新了 `convert_hf_to_gguf.py` 脚本,使 expand 参数变为可选,默认值为 2。
llama.cpp 项目已发布 b9803 版本,其中包含针对 OpenCL 的修复,用于在关闭时刷新不完整批次的性能分析数据。此更新为 macOS、Linux、Windows、Android 和 openEuler 提供了跨各种硬件后端的二进制文件。
llama.cpp 项目已发布 b9802 版本,提供跨多个操作系统和硬件架构的预构建二进制文件。此更新支持在 macOS、Linux、Windows、Android 和 openEuler 等平台上的 CPU、GPU 以及专用 AI 加速器。
本文宣布了版本 0.5.14 的发布。
Claude Code 版本 2.1.193 引入了多项增强功能,涵盖自动模式分类、遥测日志记录和后台代理管理。此更新还包括对 UI 状态问题、MCP 服务器中的身份验证处理以及各种后台处理错误的修复。
本文介绍了一种利用 AI 编码代理自动化软件分支维护的方法,并将其应用于 Cohere 对 vLLM 的分支。该方法通过用自动反馈循环取代人工干预,将吸收上游版本所需的时间从数周缩短至数天。
研究人员开发了生成式因果测试(GCT),这是一种将不可解释的基于LLM的大脑预测模型转化为关于皮层功能的简洁、可检验的口头假设的框架。该方法将模型参数提炼为描述特定脑区响应内容的简短短语,例如“食物准备”,然后通过针对性的fMRI实验验证这些解释。
Google Finance 正式告别测试阶段,并为安卓设备推出专属应用程序。
此候选版本解决了 vLLM 项目中 Prefill/Decode (P/D) 功能与数据并行 (DP) 监督器协同工作时的修复。
Cohere 使用其企业 AI 平台 Cohere North 开发了一个安全代理,并通过自定义模型上下文协议(MCP)服务器与云安全平台 Wiz 集成。该架构通过八个原子工具将 North 连接到 Wiz 的 GraphQL API,从而实现从单个提示词启动的自动化事件响应工作流。该系统通过评估攻击链并根据互联网暴露程度和权限级别对风险进行排序,在大约 20 秒内完成毒性组合爆炸半径分析。它还通过检索问题详情、创建 Linear 工单、更新 Wiz 状态以及起草结构化事件响应报告来自动化端到端调查。此外,每周定时自动化会在每周一早上自动生成安全态势简报,无需人工干预。此集成消除了之前每个发现需要 30 分钟到两小时的分类循环,使工程师能够专注于评估结果而非原始警报。
llama.cpp 的 b9788 版本在 SYCL 后端中通过 --split-mode tensor 标志引入了对张量并行的支持。该实现通过在 meta-backend 中添加 comm_init、comm_free 和 comm_allreduce_tensor 函数,实现了双 GPU 通信。对于两个设备,它使用环形 all-reduce 策略,对小张量采用 FP32 直接 memcpy,对较大的张量则采用 BF16 压缩。由于 OneCCL 存在每个进程只能使用单个设备的限制,代码避免了使用 OneCCL,而是使用持久化缓冲区来维持 SYCL 池的不变性。在双 Intel Arc Pro B70 GPU 上进行的性能测试显示,对于 Llama-3.3-70B 和 Qwen3-Coder-Next-80B-A3B 模型,与 layer 模式相比有显著的速度提升。此次更新包括适用于 macOS、Linux、Windows、Android 和 openEuler 的新二进制文件,覆盖 CPU、CUDA、ROCm、Vulkan 和 SYCL 目标平台。
llama.cpp 项目发布了 b9789 版本,其中包括对使用多令牌预测(multi-token prediction)量化混合专家(MoE)模型的关键修复。此更新解决了拉取请求 #24986 中识别的问题,以确保正确处理这些特定的模型架构。该版本提供了适用于 macOS Apple Silicon 和 Intel 的预构建二进制文件,以及一个 iOS XCFramework。Linux 用户可以下载适用于 Ubuntu 的构建版本,支持 CPU、Vulkan、ROCm 7.2、OpenVINO 和 SYCL 后端。Windows 支持包括 CPU、CUDA 12.4 和 13.3、Vulkan、OpenVINO、SYCL 和 HIP 变体。Android arm64 和 openEuler 等其他平台也通过特定的硬件配置得到支持。
OpenAI 发布的一篇新研究论文展示了人工智能代理如何从根本上改变工作的性质。该研究强调了这些代理执行比以往更长时间、更复杂任务的能力。这一技术进步被认为在多种职业角色中扩大了生产力。研究结果表明,通过自动化,劳动的组织方式和执行方式发生了重大转变。通过处理复杂的工作流程,AI 代理使用户能够实现更高的效率。该论文作为自主系统对现代就业日益增长影响的证据。
llama.cpp 仓库已解决与 SYCL 后端相关的一个特定问题。已提交一个拉取请求,以修复与 conv_3d 操作相关的失败单元测试用例。此更新针对 GitHub 上的 ggml-org/llama.cpp 项目。这些更改解决了之前阻止测试成功执行的错误。此修复确保依赖 SYCL 硬件加速的用户获得更好的稳定性。
llama.cpp 项目已发布 b9786 版本,通过 OpenCL 引入了对归一化中非连续行的支持。此次更新是 ggml-org 团队持续开发的一部分,旨在增强跨各种平台的硬件兼容性和性能。该版本提供了适用于 macOS Apple Silicon、Intel Mac 和 iOS XCFrameworks 的二进制文件。Linux 用户可以使用 CPU、Vulkan、ROCm 7.2、OpenVINO 和 SYCL 后端访问针对 Ubuntu x64、arm64 和 s390x 架构的构建版本。Android 支持适用于 arm64 CPU 设备,而 Windows 提供了广泛的选择,包括 CPU、CUDA 12 和 13、Vulkan、OpenVINO、SYCL 和 HIP。该版本还列出了在 macOS 和 openEuler 平台上禁用的 KleidiAI 构建。