Uma análise do prompt de sistema vazado de 120KB para o modelo Anthropic Claude Fable 5 detalha as estratégias arquitetônicas por trás de seu alinhamento e orquestração de ferramentas. O documento destaca como o modelo compartilha pesos com o Mythos 5 sem restrições, dependendo de classificadores de segurança durante a inferência.
- Segurança de Implantação Dupla: Fable 5 compartilha pesos com Mythos 5, mas usa classificadores de segurança durante a inferência.
- Esquemas de Ferramentas: O prompt contém 22 esquemas JSON de ferramentas definindo interfaces para APIs externas e serviços internos da Anthropic.
- Suavização do Recusa Comportamental: Instruções proíbem explicitamente o uso de marcadores ao recusar prompts para suavizar o impacto emocional.
A análise fornece insights sobre o alinhamento de modelos de fronteira examinando como a Anthropic lida com segurança e uso de ferramentas em sua arquitetura de sistema.