AnthropicはClaude Fable 5を世界中で再展開し、そのサイバーセキュリティ安全分類器および提案されたAIジェイルブレイク重大度枠組みに関する詳細情報を公開した。同社は政府との間でジェイルブレイクリスクについて議論するための一貫した用語体系の確立を目指しつつ、より広範なコミュニティからのフィードバックを求めている。
- 安全分類器は、サイバーセキュリティ用途を4つのグループに分類する:禁止、高リスク両用、低リスク両用、および無害。
- ランサムウェア、サイバー物理的破壊、マルウェア開発、インターネット基盤攻撃など、大きな危害の可能性が高い行為は禁止されている。
- 侵入テストやエクスプロイト開発などの高リスク両用活動は、認可されたアクターに対する適切なアクセス制御が整うまで現在ブロックされている。
- 異なるタイプのAIジェイルブレイクがもたらすリスクを、開発者や政府が一貫して記述できるよう支援するために、新たなジェイルブレイク重大度枠組みが提案されている。
このイニシアチブは、防御的技術の使用を可能にしつつ悪用を防ぐ基準を定義するため、学界、産業界、政府間で議論を喚起することを目的としている。