研究人员推出了 QuasiMoTTo,该方法通过使用相关样本而非独立样本来提高语言模型推理和强化学习中的采样效率。该方法将自回归采样重新参数化为逆累积分布函数(inverse-CDF)采样,并使用拟蒙特卡洛(QMC)生成底层均匀分布变量,从而在输出空间中更均匀地分布这些值。
- QuasiMoTTo 在四个推理基准测试中,以少用 25-47% 样本量的情况下达到与 i.i.d. 相当的 pass@k 准确率。
- 该方法通常能饱和一个适用于任何保持边际分布的采样器的 pass@k 上界。
- 在策略梯度强化学习(GRPO)中,QuasiMoTTo 以少用 50% 训练步数达到与 i.i.d. 相当的性能。
这些增益源于更高的覆盖率,从而为每个批次提供更强的学习信号。