Анализ утекнувшего системного промпта объемом 120KB для модели Anthropic Claude Fable 5 подробно описывает архитектурные стратегии, лежащие в основе её выравнивания и оркестрации инструментов. Документ подчеркивает, как модель разделяет веса с неограниченной Mythos 5, полагаясь на классификаторы безопасности во время вывода.

  • Двойное развертывание безопасности: Fable 5 разделяет веса с Mythos 5, но использует классификаторы безопасности при выводе.
  • Схемы инструментов: Промпт содержит 22 JSON схемы инструментов, определяющие интерфейсы для внешних API и внутренних сервисов Anthropic.
  • Смягшение поведенческого отказа: Инструкции явно запрещают использование маркированных списков при отказе от выполнения запросов, чтобы смягчить эмоциональное воздействие.

Анализ предоставляет сведения о выравнивании передовых моделей, исследуя, как Anthropic обрабатывает безопасность и использование инструментов в своей системной архитектуре.