lab Anthropic News · 1 小时前 · 来源： 1 天前 · releases

Anthropic 详细说明 Fable 5 的网络安全保障措施和越狱框架

译自 English → 中文

Anthropic 已在全球范围内重新部署 Claude Fable 5，并发布了关于其网络安全安全分类器和拟议的 AI 越狱严重程度框架的详细信息。该公司旨在建立一致的术语，以便与政府讨论越狱风险，同时邀请更广泛的社区提供反馈。

安全分类器将网络安全用途分为四类：禁止、高风险双重用途、低风险双重用途和无害。
由于具有极高的危害潜力，禁止的行为包括勒索软件、网络物理破坏、恶意软件开发和互联网骨干网攻击。
高风险双重用途活动（如渗透测试和漏洞利用开发）目前被阻止，等待为授权参与者提供更好的访问控制。
提出了一个新的越狱严重程度框架，以帮助开发者和政府一致地描述不同类型 AI 越狱所带来的风险。

该倡议旨在激发学术界、工业界和政府之间的讨论，以制定标准，使防御性技术的使用成为可能，同时防止滥用。

重要性 2/3 可信度 3/3 Anthropic News Anthropic API & product launches Safety & alignment