QuasiMoTTo menggunakan quasi-Monte Carlo untuk mengurangi pemborosan komputasi inferensi

Para peneliti memperkenalkan QuasiMoTTo, sebuah metode yang meningkatkan efisiensi sampel dalam inferensi model bahasa dan pembelajaran penguatan dengan menggunakan sampel berkorelasi alih-alih sampel independen. Pendekatan ini mereparameterisasi pengambilan sampel autoregresif sebagai pengambilan sampel CDF invers dan menarik uniform dasar dengan quasi-Monte Carlo (QMC) untuk menyebarkannya lebih merata di seluruh ruang output.

QuasiMoTTo mencapai akurasi pass@k i.i.d. yang setara dengan 25-47% sampel lebih sedikit di empat benchmark penalaran.
Metode ini sering kali menjenuhkan batas atas pada pass@k yang berlaku untuk setiap sampler pelestari marginal.
Dalam RL gradien kebijakan (GRPO), QuasiMoTTo mencapai kinerja i.i.d. yang setara dengan 50% langkah pelatihan lebih sedikit.

Peningkatan ini dihasilkan dari cakupan yang lebih tinggi, yang menghasilkan sinyal pembelajaran yang lebih kuat per batch.