Los investigadores presentan QuasiMoTTo, un método que mejora la eficiencia de muestreo en la inferencia de modelos de lenguaje y el aprendizaje por refuerzo mediante el uso de muestras correlacionadas en lugar de independientes. El enfoque reparametriza el muestreo autoregresivo como muestreo de CDF inverso y genera uniformes subyacentes con quasi-Monte Carlo (QMC) para distribuirlos más uniformemente en el espacio de salida.
- QuasiMoTTo iguala la precisión pass@k de i.i.d. con un 25-47% menos de muestras en cuatro benchmarks de razonamiento.
- El método a menudo satura un límite superior sobre pass@k que se mantiene para cualquier muestreador que preserve las marginales.
- En RL de gradiente de política (GRPO), QuasiMoTTo iguala el rendimiento i.i.d. con un 50% menos de pasos de entrenamiento.
Estas ganancias provienen de una mayor cobertura, lo que produce una señal de aprendizaje más fuerte por lote.