اختبار Qwen3.6-27B باستخدام هيكلية نقدية مكونة من ثلاثة عناصر — تشمل مراجعة الكود، ومراجعة الاختبارات، وفحوصات Playwright e2e — يجعل النموذج قابلاً للاستخدام في أعمال البرمجة عن طريق اكتشاف الأخطاء التي يرتكبها النماذج الأصغر بشكل طبيعي.

  • تتضمن الهيكلية نقادًا مميزين لمراجعة الكود، ومراجعة الاختبارات، واختبار Playwright من البداية إلى النهاية، مع تزويد كل منها بسياق محدد.
  • السياق الطازج لكل ناقد أمر بالغ الأهمية، لأن المراجعين الذين لم يروا الكود يكتشفون مشكلات تفوتها المراجعة الذاتية.
  • تقلل خط أنابيب النقد الجيد من فجوة الموثوقية بين نموذج 27B والنماذج المتقدمة عن طريق اكتشاف أخطاء إضافية.
  • يجادل المؤلف بأن الموثوقية تأتي من العملية والهيكل الداعم وليس فقط من حجم النموذج أو ضبط المطالبات وحدها.

يخلص المقال إلى أن الفرق التي تشغل النماذج في الإنتاج يجب أن تركز على التحقق من النتائج عبر هيكليات قوية بدلاً من إلقاء اللوم على النموذج بسبب عدم استقراره.