Исследователи представляют QuasiMoTTo, метод, который повышает эффективность выборки при инференсе языковых моделей и обучении с подкреплением за счёт использования коррелированных выборок вместо независимых. Подход переопределяет авторегрессионную выборку как выборку по обратной функции распределения (inverse-CDF) и генерирует базовые равномерные величины с помощью квази-Монте-Карло (QMC), чтобы равномернее распределять их по пространству выходных данных.
- QuasiMoTTo достигает точности pass@k на уровне i.i.d. при использовании на 25–47% меньшего числа выборок в четырёх бенчмарках на рассуждение.
- Метод часто достигает верхнего предела для pass@k, который справедлив для любого сэмплера, сохраняющего маргинальные распределения.
- В обучении с подкреплением по методу градиента политики (GRPO) QuasiMoTTo достигает производительности на уровне i.i.d. при использовании на 50% меньшего числа шагов обучения.
Эти преимущества обусловлены более высоким покрытием, что обеспечивает более сильный сигнал обучения на каждый батч.