使用 AI 代理自动化分支维护
本文介绍了一种利用 AI 编码代理自动化软件分支维护的方法,并将其应用于 Cohere 对 vLLM 的分支。该方法通过用自动反馈循环取代人工干预,将吸收上游版本所需的时间从数周缩短至数天。
本文介绍了一种利用 AI 编码代理自动化软件分支维护的方法,并将其应用于 Cohere 对 vLLM 的分支。该方法通过用自动反馈循环取代人工干预,将吸收上游版本所需的时间从数周缩短至数天。
研究人员开发了生成式因果测试(GCT),这是一种将不可解释的基于LLM的大脑预测模型转化为关于皮层功能的简洁、可检验的口头假设的框架。该方法将模型参数提炼为描述特定脑区响应内容的简短短语,例如“食物准备”,然后通过针对性的fMRI实验验证这些解释。
Google Finance 正式告别测试阶段,并为安卓设备推出专属应用程序。
此候选版本解决了 vLLM 项目中 Prefill/Decode (P/D) 功能与数据并行 (DP) 监督器协同工作时的修复。
Cohere 使用其企业 AI 平台 Cohere North 开发了一个安全代理,并通过自定义模型上下文协议(MCP)服务器与云安全平台 Wiz 集成。该架构通过八个原子工具将 North 连接到 Wiz 的 GraphQL API,从而实现从单个提示词启动的自动化事件响应工作流。该系统通过评估攻击链并根据互联网暴露程度和权限级别对风险进行排序,在大约 20 秒内完成毒性组合爆炸半径分析。它还通过检索问题详情、创建 Linear 工单、更新 Wiz 状态以及起草结构化事件响应报告来自动化端到端调查。此外,每周定时自动化会在每周一早上自动生成安全态势简报,无需人工干预。此集成消除了之前每个发现需要 30 分钟到两小时的分类循环,使工程师能够专注于评估结果而非原始警报。
OpenAI 发布的一篇新研究论文展示了人工智能代理如何从根本上改变工作的性质。该研究强调了这些代理执行比以往更长时间、更复杂任务的能力。这一技术进步被认为在多种职业角色中扩大了生产力。研究结果表明,通过自动化,劳动的组织方式和执行方式发生了重大转变。通过处理复杂的工作流程,AI 代理使用户能够实现更高的效率。该论文作为自主系统对现代就业日益增长影响的证据。
Claude Code 版本 2.1.191 引入了 /rewind 支持,允许用户从执行 /clear 命令之前的对话处恢复。此次更新修复了多个关键问题,包括后台代理在停止后被重新唤醒以及流式响应期间滚动位置跳跃的问题。它还修正了 /voice 显示通用错误消息以及在 Windows Terminal 中 /login URL 被截断的行为。通过为能力发现和 OAuth 流程中的瞬态网络错误添加重试逻辑,显著提升了 MCP 服务器的可靠性。无头环境现在会跳过 OAuth 的浏览器弹窗,而沙盒网络权限将在会话期间保持记住状态。性能优化通过文本更新合并,将流式处理期间的 CPU 使用率降低了约 37%,并缓解了终端输出缓存导致的长会话内存增长问题。
Google 在 Gemini 3.5 Flash 中引入了计算机使用功能,使模型能够执行代码并与外部工具交互。该功能允许用户通过集成的计算功能运行编程任务并访问实时信息。
版本 2.1.190 包括错误修复和可靠性改进。此更新中没有宣布新功能。
Mistral Studio 现在提供丰富的管理员控制功能,可按工作区和工具管理连接器访问权限,实现细粒度权限控制。功能包括带作用域的 API 密钥、多账户连接器以及用于根本原因分析的新版 Connectors Debugger,所有这些都支持与企业系统的安全、可审计集成。
Talos 是一款开源工具,可自动化地对基因组数据进行迭代重分析,以识别罕见病诊断。它在每位患者仅产生 1.3 个候选变异的情况下,实现了 90% 的目标内诊断恢复率,并为 5,000 名未确诊患者提供了 241 例新诊断,其中大多数新发现出现在证据发表后的 32 天内。
OpenAI和博通推出了Jalapeño,这是一款专为大型语言模型推理设计的定制AI芯片。该芯片旨在提升AI系统的性能、效率和可扩展性。
vllm 发布了 v0.24.0rc1,其中包括对 SM75 上 topk 直方图构建问题的修复。该更改是从提交 191826e 中 cherry-pick 的,并由 Mohammad Miadh Angkad 签署确认。
Claude v2.1.187 引入了沙盒凭据阻止、组织配置模型限制、全屏模式下的鼠标点击支持,并修复了命令失败、工具挂起和 UI 稳定性问题。更新还改进了结构化输出处理、代理深度跟踪和插件管理,增强了 VSCode 和终端兼容性。
OpenAI通过Appia基金会,正在通过开发评估框架、安全实践以及促进全球合作,推进先进AI的共享标准。
Claude Tag 允许团队在 Slack 中 @Claude 以委派任务,并可访问选定的频道、工具和代码库。它从频道上下文中学习,支持异步工作,并通过主动更新用户相关信息来展现主动性。目前,Anthropic 产品团队 65% 的代码由内部 Claude Tag 生成,现已面向 Claude Enterprise 和 Team 客户开放测试版。
GPT-5 Pro为T细胞行为提供了关键见解,解决了30年的免疫学谜题。这一发现可能推动癌症和自身免疫疾病的研究进展。
Mistral OCR 4 引入了边界框、块分类和针对 10 个语言组中 170 种语言的行内置信度分数。在人类偏好评估中,其表现优于领先的 OCR 系统,胜率达到 72%,并在 OlmOCRBench 上取得最高分(85.20),同时提供单容器内的自托管部署,并支持 RAG 和文档摄取等企业用例。
一项针对来自22个国家的81名AI用户的全球调查显示,89.5%的非英语使用者在使用AI时会切换到英语,理由是认为其更准确。超过三分之一的受访者表示AI无法理解他们的文化,其中63%的人经历了违反文化规范的情况,包括以西方为中心叙事和不恰当的正式程度。参与者表达了对AI将进一步边缘化其文化的担忧,67%的人同意AI未来会将文化多样性简化为刻板印象。
Omio利用OpenAI增强对话式旅行体验。该公司使用人工智能加速产品开发,并转型为AI原生商业模式。