Анализ утекнувшего системного промпта объемом 120KB для модели Anthropic Claude Fable 5 подробно описывает архитектурные стратегии, лежащие в основе её выравнивания и оркестрации инструментов. Документ подчеркивает, как модель разделяет веса с неограниченной Mythos 5, полагаясь на классификаторы безопасности во время вывода.
- Двойное развертывание безопасности: Fable 5 разделяет веса с Mythos 5, но использует классификаторы безопасности при выводе.
- Схемы инструментов: Промпт содержит 22 JSON схемы инструментов, определяющие интерфейсы для внешних API и внутренних сервисов Anthropic.
- Смягшение поведенческого отказа: Инструкции явно запрещают использование маркированных списков при отказе от выполнения запросов, чтобы смягчить эмоциональное воздействие.
Анализ предоставляет сведения о выравнивании передовых моделей, исследуя, как Anthropic обрабатывает безопасность и использование инструментов в своей системной архитектуре.