연구자들은 언어 모델 추론 및 강화 학습에서 샘플 효율성을 개선하는 QuasiMoTTo라는 방법을 소개했습니다. 이 방법은 독립적인 샘플 대신 상관관계가 있는 샘플을 사용하며, 자기회귀적 샘플링을 역CDF 샘플링으로 재매개변수화하고 준 몬테카를로(QMC)를 사용하여 기본 균일 분포를 출력 공간에 더 고르게 분산시킵니다.
- QuasiMoTTo는 4개의 추론 벤치마크에서 i.i.d. pass@k 정확도와 동일한 성능을 25~47% 적은 샘플 수로 달성합니다.
- 이 방법은 임의의 주변 분포 보존 샘플러에 적용되는 pass@k의 상한에 종종 도달합니다.
- 정책 그래디언트 RL(GRPO)에서 QuasiMoTTo는 i.i.d. 성능과 동일한 결과를 50% 적은 학습 단계로 달성합니다.
이러한 개선은 더 높은 커버리지로 인해 배치당 학습 신호가 강화되기 때문입니다.