Anthropic के Claude Fable 5 मॉडल के लिए 120KB के लीक हुए सिस्टम प्रॉम्प्ट का विश्लेषण इसके एलाइनमेंट और टूल ऑर्केस्ट्रेशन के पीछे की वास्तुकला रणनीतियों को विस्तार से बताता है। दस्तावेज़ इस बात पर प्रकाश डालता है कि मॉडल Mythos 5 के साथ वजन साझा करता है, जबकि इनफरेंस के दौरान सुरक्षा क्लासिफायर्स पर निर्भर रहता है।
- डुअल-डिप्लॉयमेंट सुरक्षा: Fable 5, Mythos 5 के साथ वजन साझा करता है लेकिन इनफरेंस के दौरान सुरक्षा क्लासिफायर्स का उपयोग करता है।
- टूल स्कीमा: प्रॉम्प्ट में बाहरी API और आंतरिक Anthropic सेवाओं के लिए इंटरफेस परिभाषित करने वाले 22 JSON टूल स्कीमा शामिल हैं।
- व्यवहारिक अस्वीकृति को नरम करना: निर्देश स्पष्ट रूप से प्रॉम्प्ट को अस्वीकार करते समय भावनात्मक प्रभाव को नरम करने के लिए बुलेट पॉइंट का उपयोग करने पर प्रतिबंध लगाते हैं।
विश्लेषण इस बात की जांच करके फ्रंटियर मॉडल एलाइनमेंट के बारे में अंतर्दृष्टि प्रदान करता है कि Anthropic अपनी सिस्टम वास्तुकला में सुरक्षा और टूल उपयोग को कैसे संभालता है।