使用包含代码审查、测试审查和 Playwright e2e 检查的三评审器框架对 Qwen3.6-27B 进行测试,使其能够用于编码工作,因为它能捕获小模型自然犯下的错误。

  • 该框架包括针对代码审查、测试审查和 Playwright 端到端测试的不同评审器,每个评审器都提供特定的上下文。
  • 为每个评审器提供新鲜的上下文至关重要,因为未见过代码的评审者能发现自我审查遗漏的问题。
  • 优秀的评审器管道通过捕获额外错误,缩小了 27B 模型与前沿模型之间的可靠性差距。
  • 作者认为,可靠性来自流程和支撑结构,而非仅仅取决于模型大小或提示微调。

文章得出结论,在生产环境中运行模型的团队应专注于通过强大的框架来验证结果,而不是因模型的不稳定性而责怪模型。