Un análisis del prompt de sistema filtrado de 120KB para el modelo Anthropic Claude Fable 5 detalla las estrategias arquitectónicas detrás de su alineación y orquestación de herramientas. El documento destaca cómo el modelo comparte pesos con el sin restricciones Mythos 5 mientras depende de clasificadores de seguridad durante la inferencia.

  • Seguridad de implementación dual: Fable 5 comparte pesos con Mythos 5 pero utiliza clasificadores de seguridad durante la inferencia.
  • Esquemas de herramientas: El prompt contiene 22 esquemas JSON de herramientas que definen interfaces para APIs externas y servicios internos de Anthropic.
  • Suavizado del rechazo conductual: Las instrucciones prohíben explícitamente usar viñetas al rechazar solicitudes para suavizar el impacto emocional.

El análisis proporciona información sobre la alineación de modelos de vanguardia examinando cómo Anthropic maneja la seguridad y el uso de herramientas en su arquitectura de sistema.