Para peneliti memperkenalkan QuasiMoTTo, sebuah metode yang meningkatkan efisiensi sampel dalam inferensi model bahasa dan pembelajaran penguatan dengan menggunakan sampel berkorelasi alih-alih sampel independen. Pendekatan ini mereparameterisasi pengambilan sampel autoregresif sebagai pengambilan sampel CDF invers dan menarik uniform dasar dengan quasi-Monte Carlo (QMC) untuk menyebarkannya lebih merata di seluruh ruang output.

  • QuasiMoTTo mencapai akurasi pass@k i.i.d. yang setara dengan 25-47% sampel lebih sedikit di empat benchmark penalaran.
  • Metode ini sering kali menjenuhkan batas atas pada pass@k yang berlaku untuk setiap sampler pelestari marginal.
  • Dalam RL gradien kebijakan (GRPO), QuasiMoTTo mencapai kinerja i.i.d. yang setara dengan 50% langkah pelatihan lebih sedikit.

Peningkatan ini dihasilkan dari cakupan yang lebih tinggi, yang menghasilkan sinyal pembelajaran yang lebih kuat per batch.