研究者らは、QuasiMoTToを発表した。これは、独立した標本ではなく相関のある標本を使用することで、言語モデルの推論および強化学習におけるサンプル効率を向上させる手法である。このアプローチは自己回帰的サンプリングを逆CDFサンプリングとして再パラメータ化し、準モンテカルロ法(QMC)を用いて基礎となる一様乱数を出力空間全体により均等に分散させる。
- QuasiMoTToは、4つの推論ベンチマークにおいて、i.i.d.のpass@k精度と同等の性能を25〜47%少ないサンプル数で達成する。
- この手法は、任意の周辺分布保存サンプリヤーに適用されるpass@kの上界によく収束する。
- ポリシー勾配強化学習(GRPO)において、QuasiMoTToはi.i.d.のパフォーマンスと同等の結果を、50%少ない学習ステップ数で達成する。
これらの改善は、より高いカバレッジにより、バッチあたりの学習シグナルが強化されることによるものである。