PairCoderは、ドライバーがコードを書き、ナビゲーターが検証証拠に基づいてそれをレビューし、エラーが継続した場合に役割を切り替えるという、2エージェントのペアプログラミングフレームワークを導入しています。このアプローチは、チャートやCADモデルなどの構造化アーティファクトを生成するツールチェーンにレビューを根ざさせることで、単一パス推論の脆さに対処します。

  • 17の公開ベンチマークと3つのベンダーからの7つのモデルで評価されました。
  • Blenderシーン実行可能率が0.20から0.78に向上しました。
  • すべてのモデルでTikZコンパイル率を10〜30ポイント増加させました。
  • 単一モデル推論のコストの2.9倍から9.2倍で動作し、全体では平均約7倍です。

この手法は、特にツールチェーンが有益なオラクルを提供する場合に、検証済みコード駆動型生成のための信頼できるレシピを提供します。