QuasiMoTTo 利用拟蒙特卡洛减少推理计算浪费

研究人员推出了 QuasiMoTTo，该方法通过使用相关样本而非独立样本来提高语言模型推理和强化学习中的采样效率。该方法将自回归采样重新参数化为逆累积分布函数（inverse-CDF）采样，并使用拟蒙特卡洛（QMC）生成底层均匀分布变量，从而在输出空间中更均匀地分布这些值。

这些增益源于更高的覆盖率，从而为每个批次提供更强的学习信号。