AnthropicのClaude Fable 5モデルの漏洩した120KBのシステムプロンプトの分析は、そのアライメントとツールオーケストレーションの背後にあるアーキテクチャ戦略の詳細を明らかにしている。この文書は、モデルが制約のないMythos 5と重みを共有しながら、推論時に安全分類器に依存する方法を強調している。

  • デプロイメント二重化による安全性: Fable 5はMythos 5と重みを共有するが、推論中に安全分類器を使用する。
  • ツールスキーマ: プロンプトには、外部APIおよび内部Anthropicサービス向けのインターフェースを定義する22のJSONツールスキーマが含まれている。
  • 拒否時の行動的緩和: プロンプト拒否時に箇条書きを使用しないよう指示し、感情的な影響を和らげている。

この分析は、Anthropicがシステムアーキテクチャにおいて安全性とツールの使用をどのように扱っているかを調べることで、フロンティアモデルのアライメントに関する洞察を提供する。