Testar o Qwen3.6-27B com um harness de três críticos — compreendendo revisão de código, revisão de testes e verificações e2e do Playwright — torna o modelo utilizável para trabalho de codificação ao capturar erros que modelos menores naturalmente cometem.

  • O harness inclui críticos distintos para revisão de código, revisão de testes e testes end-to-end do Playwright, cada um fornecido com contexto específico.
  • Contexto fresco por crítico é crítico, pois revisores que não viram o código capturam problemas que a auto-revisão perde.
  • Um pipeline de críticos bom reduz a lacuna de confiabilidade entre um modelo de 27B e modelos de fronteira ao capturar erros extras.
  • O autor argumenta que a confiabilidade vem do processo e da estrutura, não apenas do tamanho do modelo ou do ajuste fino de prompts.

O artigo conclui que equipes executando modelos em produção devem focar em verificar resultados por meio de harnesses robustos em vez de culpar o modelo pela instabilidade.