Anthropic 已在全球范围内重新部署 Claude Fable 5,并发布了关于其网络安全安全分类器和拟议的 AI 越狱严重程度框架的详细信息。该公司旨在建立一致的术语,以便与政府讨论越狱风险,同时邀请更广泛的社区提供反馈。
- 安全分类器将网络安全用途分为四类:禁止、高风险双重用途、低风险双重用途和无害。
- 由于具有极高的危害潜力,禁止的行为包括勒索软件、网络物理破坏、恶意软件开发和互联网骨干网攻击。
- 高风险双重用途活动(如渗透测试和漏洞利用开发)目前被阻止,等待为授权参与者提供更好的访问控制。
- 提出了一个新的越狱严重程度框架,以帮助开发者和政府一致地描述不同类型 AI 越狱所带来的风险。
该倡议旨在激发学术界、工业界和政府之间的讨论,以制定标准,使防御性技术的使用成为可能,同时防止滥用。