يكشف تحليل لموجه نظام مسرب بحجم 120KB لنموذج Anthropic Claude Fable 5 عن الاستراتيجيات المعمارية الكامنة وراء محاذاة النموذج وتنسيق الأدوات. يسلط المستند الضوء على كيفية مشاركة النموذج للأوزان مع Mythos 5 غير المقيد بينما يعتمد على مصنفي الأمان أثناء الاستنتاج.

  • أمان النشر المزدوج: يشارك Fable 5 الأوزان مع Mythos 5 ولكنه يستخدم مصنفي الأمان أثناء الاستنتاج.
  • مخططات الأدوات: يحتوي الموجه على 22 مخطط أداة JSON تحدد واجهات لـ APIs الخارجية وخدمات Anthropic الداخلية.
  • تخفيف رفض السلوك: تمنع التعليمات صراحةً استخدام النقاط النقطية عند رفض الموجهات لتخفيف التأثير العاطفي.

يوفر التحليل رؤى حول محاذاة النماذج الحدودية من خلال فحص كيفية تعامل Anthropic مع الأمان واستخدام الأدوات في بنية نظامها.