Les chercheurs présentent QuasiMoTTo, une méthode qui améliore l'efficacité des échantillons dans l'inférence des modèles de langage et l'apprentissage par renforcement en utilisant des échantillons corrélés au lieu d'échantillons indépendants. L'approche reparamétrise l'échantillonnage autoregressif comme un échantillonnage par CDF inverse et tire des uniformes sous-jacents avec le quasi-Monte Carlo (QMC) pour les répartir plus uniformément dans l'espace de sortie.
- QuasiMoTTo atteint une précision pass@k i.i.d. équivalente avec 25 à 47 % moins d'échantillons sur quatre benchmarks de raisonnement.
- La méthode atteint souvent une borne supérieure sur le pass@k qui s'applique à tout échantillonneur préservant les marginales.
- Dans l'apprentissage par renforcement par gradient de politique (GRPO), QuasiMoTTo égale la performance i.i.d. avec 50 % moins d'étapes d'entraînement.
Ces gains résultent d'une meilleure couverture, ce qui produit un signal d'apprentissage plus fort par lot.