L'analyse du prompt système fuité de Claude Fable 5 révèle une architecture de niveau Mythos

Une analyse d'un prompt système de 120 Ko pour le modèle Claude Fable 5 d'Anthropic détaille les stratégies architecturales derrière son alignement et l'orchestration des outils. Le document met en évidence comment le modèle partage ses poids avec le Mythos 5 non restreint tout en s'appuyant sur des classificateurs de sécurité lors de l'inférence.

Sécurité à déploiement double : Fable 5 partage ses poids avec Mythos 5 mais utilise des classificateurs de sécurité pendant l'inférence.
Schémas d'outils : Le prompt contient 22 schémas d'outils JSON définissant les interfaces pour les API externes et les services internes d'Anthropic.
Atténuation comportementale du refus : Les instructions interdisent explicitement l'utilisation de puces lors du refus des prompts pour adoucir l'impact émotionnel.

L'analyse apporte un éclairage sur l'alignement des modèles de pointe en examinant la manière dont Anthropic gère la sécurité et l'utilisation des outils dans son architecture système.