全部文章 — korshunov.ai

最近的一项研究调查了混合语言模型相比标准密集架构更准确地预测哪些特定令牌。该研究侧重于理解不同令牌类型（如罕见词和代码片段）的预测误差分布。通过分析损失景观，作者确定混合模型在稀疏数据区域捕捉长程依赖关系方面表现出色。研究结果表明，专家混合机制允许在推理期间更高效地利用参数。这种改进的准确性对于训练语料库中低频出现的令牌尤为显著。该论文提供了各种基准数据集上性能指标的详细分解。这些结果突出了混合架构有效处理多样化语言结构的潜力。

lab Cohere Blog · 6 天前

Cohere 通过自定义 MCP 服务器与 North 和 Wiz 自动化事件响应

Cohere 使用其企业 AI 平台 Cohere North 开发了一个安全代理，并通过自定义模型上下文协议（MCP）服务器与云安全平台 Wiz 集成。该架构通过八个原子工具将 North 连接到 Wiz 的 GraphQL API，从而实现从单个提示词启动的自动化事件响应工作流。该系统通过评估攻击链并根据互联网暴露程度和权限级别对风险进行排序，在大约 20 秒内完成毒性组合爆炸半径分析。它还通过检索问题详情、创建 Linear 工单、更新 Wiz 状态以及起草结构化事件响应报告来自动化端到端调查。此外，每周定时自动化会在每周一早上自动生成安全态势简报，无需人工干预。此集成消除了之前每个发现需要 30 分钟到两小时的分类循环，使工程师能够专注于评估结果而非原始警报。

github llama.cpp · 7 天前

llama.cpp b9788 为双 GPU 配置添加 SYCL 张量并行支持

llama.cpp 的 b9788 版本在 SYCL 后端中通过 --split-mode tensor 标志引入了对张量并行的支持。该实现通过在 meta-backend 中添加 comm_init、comm_free 和 comm_allreduce_tensor 函数，实现了双 GPU 通信。对于两个设备，它使用环形 all-reduce 策略，对小张量采用 FP32 直接 memcpy，对较大的张量则采用 BF16 压缩。由于 OneCCL 存在每个进程只能使用单个设备的限制，代码避免了使用 OneCCL，而是使用持久化缓冲区来维持 SYCL 池的不变性。在双 Intel Arc Pro B70 GPU 上进行的性能测试显示，对于 Llama-3.3-70B 和 Qwen3-Coder-Next-80B-A3B 模型，与 layer 模式相比有显著的速度提升。此次更新包括适用于 macOS、Linux、Windows、Android 和 openEuler 的新二进制文件，覆盖 CPU、CUDA、ROCm、Vulkan 和 SYCL 目标平台。

github llama.cpp · 7 天前

llama.cpp b9789 版本修复 MoE 量化并提供多平台二进制文件

llama.cpp 项目发布了 b9789 版本，其中包括对使用多令牌预测（multi-token prediction）量化混合专家（MoE）模型的关键修复。此更新解决了拉取请求 #24986 中识别的问题，以确保正确处理这些特定的模型架构。该版本提供了适用于 macOS Apple Silicon 和 Intel 的预构建二进制文件，以及一个 iOS XCFramework。Linux 用户可以下载适用于 Ubuntu 的构建版本，支持 CPU、Vulkan、ROCm 7.2、OpenVINO 和 SYCL 后端。Windows 支持包括 CPU、CUDA 12.4 和 13.3、Vulkan、OpenVINO、SYCL 和 HIP 变体。Android arm64 和 openEuler 等其他平台也通过特定的硬件配置得到支持。

lab OpenAI News · 7 天前

OpenAI 研究表明 AI 代理正在改变工作

OpenAI 发布的一篇新研究论文展示了人工智能代理如何从根本上改变工作的性质。该研究强调了这些代理执行比以往更长时间、更复杂任务的能力。这一技术进步被认为在多种职业角色中扩大了生产力。研究结果表明，通过自动化，劳动的组织方式和执行方式发生了重大转变。通过处理复杂的工作流程，AI 代理使用户能够实现更高的效率。该论文作为自主系统对现代就业日益增长影响的证据。

github llama.cpp · 7 天前

修复 SYCL 中 conv_3d 的失败单元测试用例

llama.cpp 仓库已解决与 SYCL 后端相关的一个特定问题。已提交一个拉取请求，以修复与 conv_3d 操作相关的失败单元测试用例。此更新针对 GitHub 上的 ggml-org/llama.cpp 项目。这些更改解决了之前阻止测试成功执行的错误。此修复确保依赖 SYCL 硬件加速的用户获得更好的稳定性。

github llama.cpp · 7 天前

llama.cpp b9786 版本发布，新增 OpenCL 非连续行支持

llama.cpp 项目已发布 b9786 版本，通过 OpenCL 引入了对归一化中非连续行的支持。此次更新是 ggml-org 团队持续开发的一部分，旨在增强跨各种平台的硬件兼容性和性能。该版本提供了适用于 macOS Apple Silicon、Intel Mac 和 iOS XCFrameworks 的二进制文件。Linux 用户可以使用 CPU、Vulkan、ROCm 7.2、OpenVINO 和 SYCL 后端访问针对 Ubuntu x64、arm64 和 s390x 架构的构建版本。Android 支持适用于 arm64 CPU 设备，而 Windows 提供了广泛的选择，包括 CPU、CUDA 12 和 13、Vulkan、OpenVINO、SYCL 和 HIP。该版本还列出了在 macOS 和 openEuler 平台上禁用的 KleidiAI 构建。

github llama.cpp · 7 天前

llama.cpp b9785 发布，包含加固的大小写检查与多平台二进制文件

llama.cpp 项目已发布版本 b9785，其中包含一项代码更改，用于加固大小写检查，详见拉取请求 #24973。此次更新提供了适用于 macOS Apple Silicon、Intel Mac 以及通过 XCFramework 提供的 iOS 的预构建二进制文件，在 Apple Silicon 上禁用了 KleidiAI 支持。Linux 发行版（包括 Ubuntu）支持 CPU、Vulkan、ROCm 7.2、OpenVINO 和 SYCL 后端，涵盖 x64、arm64 和 s390x 架构。Android 用户可获取 arm64 CPU 二进制文件，而 Windows 提供广泛的选择，涵盖 CPU、OpenCL Adreno、CUDA 12 和 13、Vulkan、OpenVINO、SYCL 和 HIP。该版本还包括针对 x86 和 aarch64 处理器并支持 ACL Graph 的 openEuler 构建。除了各平台特定的发布外，还提供了一个独立的 UI 包，以方便本地模型推理。

lab Claude Code Releases · 7 天前

Claude Code v2.1.191 版本说明

Claude Code 版本 2.1.191 引入了 /rewind 支持，允许用户从执行 /clear 命令之前的对话处恢复。此次更新修复了多个关键问题，包括后台代理在停止后被重新唤醒以及流式响应期间滚动位置跳跃的问题。它还修正了 /voice 显示通用错误消息以及在 Windows Terminal 中 /login URL 被截断的行为。通过为能力发现和 OAuth 流程中的瞬态网络错误添加重试逻辑，显著提升了 MCP 服务器的可靠性。无头环境现在会跳过 OAuth 的浏览器弹窗，而沙盒网络权限将在会话期间保持记住状态。性能优化通过文本更新合并，将流式处理期间的 CPU 使用率降低了约 37%，并缓解了终端输出缓存导致的长会话内存增长问题。

AutoGPT Platform Beta v0.6.65 发布说明

llama.cpp b9802 版本提供 macOS、Linux、Windows 和 Android 的二进制文件

v0.5.14

Claude Code v2.1.193 发布说明

使用 AI 代理自动化分支维护

v1.39.0

利用AI驱动的解释和实验理解大脑

Google Finance 结束测试版，推出全新安卓应用

一条命令在 HF Jobs 上运行 vLLM 服务器

v0.24.0rc2：修复与 DP 监督器配合使用的 P/D 问题 (#46628)

crewAI 1.14.8a5 发布说明

混合语言模型中令牌预测准确性的分析

Cohere 通过自定义 MCP 服务器与 North 和 Wiz 自动化事件响应

llama.cpp b9788 为双 GPU 配置添加 SYCL 张量并行支持

llama.cpp b9789 版本修复 MoE 量化并提供多平台二进制文件

OpenAI 研究表明 AI 代理正在改变工作

修复 SYCL 中 conv_3d 的失败单元测试用例

llama.cpp b9786 版本发布，新增 OpenCL 非连续行支持

llama.cpp b9785 发布，包含加固的大小写检查与多平台二进制文件

Claude Code v2.1.191 版本说明