コードレビュー、テストレビュー、Playwright e2eチェックからなる3批評家ハーネスを用いてQwen3.6-27Bをテストすることで、小規模モデルが自然に行うエラーを検出し、コーディング作業での使用が可能になる。
- ハーネスには、それぞれ特定のコンテキストを提供されるコードレビュー、テストレビュー、Playwrightエンドツーエンドテスト用の個別の批評家が組み込まれている。
- 各批評家ごとの新鮮なコンテキストが重要であり、コードを未見のレビュアーは自己レビューで見逃す問題を発見できる。
- 優れた批評家パイプラインは、追加のミスを検出することで、27Bモデルと最先端モデル間の信頼性のギャップを縮小する。
- 著者は、信頼性はモデルサイズやプロンプトチューニング alone ではなく、プロセスと基盤構造から来ると主張している。
記事は、本番環境でモデルを実行するチームは、モデルの不安定さを責めるのではなく、堅牢なハーネスを通じて結果を検証することに注力すべきだと結論付けている。