قد تكون فجوات تقييم النماذج المغلقة أصغر مما يُفترض بسبب تحسينات النظام المخفية

تجادل المقالة بأن الفجوة في الأداء بين النماذج المغلقة والمفتوحة مبالغ فيها على الأرجح لأن التقييمات تقارن استنتاج النموذج الخام مع أنظمة المنتجات الكاملة. يمكن لمزودي الخدمات المغلقة تعزيز النتائج بشكل كبير من خلال تقنيات الخلفية مثل RAG، ومعالجة المطالبات الأولية، والنماذج المتخصصة دون الكشف عن هذه الإضافات.

غالبًا ما تقارن التقييمات الاستنتاج الخام لـ GLM مع مجموعة منتجات Claude الكاملة، مما يخلق مقارنة غير عادلة.
قد يستخدم المزودون استدعاءات أدوات داخلية مخفية، أو مطالبات نظام تعتمد على السياق، أو هياكل "clown-car MoE" لتحسين المخرجات.
قامت Anthropic بالفعل بإخفاء آثار الاستدلال وتقييد الوصول إلى المحادثات الكاملة، مما يحجب هذه التحسينات.
من الممكن أن لا يتفوق استنتاج نموذج مغلق واحد فعليًا على النماذج المفتوحة عند عزله.

يشير المؤلف إلى أنه بدون رؤية لمعالجة الخلفية، يستحيل تقييم القدرات الحقيقية للنماذج الأساسية بدقة.