Menguji Qwen3.6-27B dengan harness tiga-kritik — yang mencakup tinjauan kode, tinjauan tes, dan pemeriksaan e2e Playwright — membuat model ini dapat digunakan untuk pekerjaan pemrograman dengan menangkap kesalahan yang secara alami dibuat oleh model yang lebih kecil.

  • Harness tersebut mencakup kritik terpisah untuk tinjauan kode, tinjauan tes, dan pengujian end-to-end Playwright, masing-masing diberikan konteks spesifik.
  • Konteks segar per kritik sangat penting, karena reviewer yang belum melihat kode dapat menemukan masalah yang terlewatkan oleh tinjauan diri.
  • Pipeline kritik yang baik mengurangi kesenjangan keandalan antara model 27B dan model terdepan dengan menangkap kesalahan tambahan.
  • Penulis berargumen bahwa keandalan berasal dari proses dan scaffolding, bukan hanya ukuran model atau prompt-tuning alone.

Artikel ini menyimpulkan bahwa tim yang menjalankan model dalam produksi harus fokus memverifikasi hasil melalui harness yang kuat daripada menyalahkan model atas ketidakstabilannya.