PairCoder memperkenalkan kerangka kerja pemrograman berpasangan dua agen di mana Driver menulis kode dan Navigator meninjaunya terhadap bukti verifikasi, berganti peran ketika kesalahan terus berlanjut. Pendekatan ini mengatasi kerapuhan inferensi satu kali dengan mendasarkan peninjauan pada toolchain untuk menghasilkan artefak terstruktur seperti bagan dan model CAD.

  • Dievaluasi di 17 benchmark publik dan tujuh model dari tiga vendor.
  • Meningkatkan eksekutabilitas adegan Blender dari 0,20 menjadi 0,78.
  • Meningkatkan tingkat kompilasi TikZ sebesar 10 hingga 30 poin pada setiap model.
  • Beroperasi dengan biaya 2,9 hingga 9,2 kali lipat dibandingkan inferensi model tunggal, rata-rata sekitar 7 kali secara keseluruhan.

Metode ini memberikan resep yang andal untuk generasi berbasis kode yang terverifikasi, terutama di mana toolchain menawarkan oracle yang informatif.