छिपी हुई सिस्टम सुधारों के कारण बंद मॉडल बेंचमार्क अंतर माने जाने से कम हो सकते हैं

लेख में तर्क दिया गया है कि बंद और खुले मॉडलों के बीच प्रदर्शन अंतर संभवतः अधिक आंक गया है क्योंकि बेंचमार्क्स कच्चे मॉडल इनफरेंस की तुलना पूर्ण उत्पाद इकोसिस्टम से करते हैं। बंद प्रदायक RAG, प्रॉम्प्ट पूर्व-प्रसंस्करण और विशेषज्ञ मॉडलों जैसे बैकएंड तकनीकों के माध्यम से परिणामों को महत्वपूर्ण रूप से बढ़ा सकते हैं बिना इन जोड़ों को उजागर किए।

बेंचमार्क्स अक्स GLM के कच्चे इनफरेंस की तुलना Claude की पूरी उत्पाद सूइट से करते हैं, जिससे अन्यायपूर्ण तुलना होती है।
प्रदायक आउटपुट को बेहतर बनाने के लिए छिपे हुए आंतरिक टूल कॉल्स, संदर्भ-निर्भर सिस्टम प्रॉम्प्ट या "clown-car MoE" आर्किटेक्चर का उपयोग कर सकते हैं।
Anthropic ने पहले ही तर्क ट्रेस को छिपा दिया है और पूर्ण बातचीत तक पहुंच को सीमित किया है, जिससे ये सुधार छिप जाते हैं।
यह संभव है कि किसी भी एकल बंद मॉडल का इनफरेंस आउटपुट वास्तव में अलग करने पर खुले मॉडलों से बेहतर नहीं होता है।

लेखक सुझाव देते हैं कि बैकएंड प्रसंस्करण की दृश्यता के बिना, आधारभूत मॉडलों की वास्तविक क्षमताओं का सटीक आकलन करना असंभव है।