Probar Qwen3.6-27B con un arnés de tres críticos —que comprende revisión de código, revisión de pruebas y comprobaciones e2e de Playwright— hace que el modelo sea utilizable para tareas de codificación al detectar errores que los modelos más pequeños cometen naturalmente.
- El arnés incluye críticos distintos para la revisión de código, la revisión de pruebas y las pruebas end-to-end de Playwright, cada uno con contexto específico.
- Un contexto fresco por crítico es fundamental, ya que los revisores que no han visto el código detectan problemas que la auto-revisión pasa por alto.
- Una buena canalización de críticos reduce la brecha de fiabilidad entre un modelo de 27B y los modelos de vanguardia al detectar errores adicionales.
- El autor argumenta que la fiabilidad proviene del proceso y la estructura, no solo del tamaño del modelo o del ajuste fino de prompts.
El artículo concluye que los equipos que ejecutan modelos en producción deben centrarse en verificar los resultados mediante arneses robustos en lugar de culpar al modelo por su inestabilidad.