Pesquisadores apresentam o QuasiMoTTo, um método que melhora a eficiência de amostragem na inferência de modelos de linguagem e no aprendizado por reforço ao usar amostras correlacionadas em vez de independentes. A abordagem reparametriza a amostragem autoregressiva como amostragem de CDF inverso e gera uniformes subjacentes com quasi-Monte Carlo (QMC) para distribuí-las mais uniformemente pelo espaço de saída.

  • QuasiMoTTo iguala a precisão pass@k de i.i.d. com 25-47% menos amostras em quatro benchmarks de raciocínio.
  • O método frequentemente satura um limite superior sobre pass@k que vale para qualquer amostrador que preserve as marginais.
  • Em RL por gradiente de política (GRPO), o QuasiMoTTo iguala o desempenho i.i.d. com 50% menos passos de treinamento.

Esses ganhos resultam de uma cobertura maior, o que gera um sinal de aprendizado mais forte por batch.