QuasiMoTTo usa quasi-Monte Carlo para reduzir desperdício de computação na inferência

Pesquisadores apresentam o QuasiMoTTo, um método que melhora a eficiência de amostragem na inferência de modelos de linguagem e no aprendizado por reforço ao usar amostras correlacionadas em vez de independentes. A abordagem reparametriza a amostragem autoregressiva como amostragem de CDF inverso e gera uniformes subjacentes com quasi-Monte Carlo (QMC) para distribuí-las mais uniformemente pelo espaço de saída.

QuasiMoTTo iguala a precisão pass@k de i.i.d. com 25-47% menos amostras em quatro benchmarks de raciocínio.
O método frequentemente satura um limite superior sobre pass@k que vale para qualquer amostrador que preserve as marginais.
Em RL por gradiente de política (GRPO), o QuasiMoTTo iguala o desempenho i.i.d. com 50% menos passos de treinamento.

Esses ganhos resultam de uma cobertura maior, o que gera um sinal de aprendizado mais forte por batch.