누출된 Claude Fable 5 시스템 프롬프트 분석으로 Mythos 계층 아키텍처 드러나

Anthropic의 Claude Fable 5 모델에 대한 누출된 120KB 시스템 프롬프트 분석은 정렬 및 도구 오케스트레이션 뒤의 아키텍처 전략을 상세히 설명합니다. 이 문서는 모델이 제한 없는 Mythos 5와 가중치를 공유하면서도 추론 시 안전 분류기에 의존하는 방법을 강조합니다.

이중 배포 안전성: Fable 5는 Mythos 5와 가중치를 공유하지만 추론 중 안전 분류기를 사용합니다.
도구 스키마: 프롬프트에는 외부 API 및 내부 Anthropic 서비스에 대한 인터페이스를 정의하는 22개의 JSON 도구 스키마가 포함되어 있습니다.
거절 시 행동 완화: 프롬프트 거절 시 불릿 포인트 사용을 명시적으로 금지하여 감정적 영향을 완화합니다.

이 분석은 Anthropic이 시스템 아키텍처에서 안전성과 도구 사용 방식을 어떻게 다루는지 조사함으로써 최전방 모델 정렬에 대한 통찰력을 제공합니다.