对 Anthropic Claude Fable 5 模型泄露的 120KB 系统提示的分析详细说明了其对齐和工具编排背后的架构策略。该文件强调了模型如何与无限制的 Mythos 5 共享权重,同时在推理过程中依赖安全分类器。
- 双重部署安全:Fable 5 与 Mythos 5 共享权重,但在推理时使用安全分类器。
- 工具模式:提示包含 22 个 JSON 工具模式,定义了外部 API 和 Anthropic 内部服务的接口。
- 行为拒绝软化:指令明确禁止在拒绝提示时使用项目符号,以减轻情感冲击。
该分析通过检查 Anthropic 在其系统架构中如何处理安全和工具使用,为前沿模型的对齐提供了见解。