PairCoder 引入了一个双智能体结对编程框架,其中 Driver 编写代码,Navigator 根据验证证据对其进行审查,在错误持续存在时切换角色。该方法通过将审查基于工具链来应对单遍推理的脆弱性,从而生成图表和 CAD 模型等结构化工件。

  • 在 17 个公开基准测试和来自三个供应商的七个模型上进行了评估。
  • Blender 场景可执行性从 0.20 提升至 0.78。
  • 每个模型的 TikZ 编译率提高了 10 到 30 个百分点。
  • 成本为单模型推理的 2.9 到 9.2 倍,平均约为 7 倍。

该方法为经验证的代码驱动生成提供了可靠的方案,特别是在工具链提供信息性预言机的场景中。