يقدم الباحثون QuasiMoTTo، وهي طريقة تحسّن كفاءة العينات في استدلال نماذج اللغة والتعلم المعزز من خلال استخدام عينات مترابطة بدلاً من المستقلة. تعيد الطريقة إعادة وسيطية أخذ العينات الذاتي الانحدار كأخذ عينات دالة التوزيع التراكمي العكسي (inverse-CDF) وتقوم بسحب القيم المنتظمة الأساسية باستخدام كوازي-مونت كارلو (QMC) لتوزيعها بشكل أكثر تجانساً عبر مساحة الإخراج.

  • يحقق QuasiMoTTo دقة pass@k مستقلة ومتطابقة (i.i.d.) بنسبة 25-47% أقل من العينات عبر أربعة معايير استدلالية.
  • غالباً ما تشبع الطريقة حداً علوياً لـ pass@k ينطبق على أي مُعيّن يحافظ على التوزيعات الهامشية.
  • في التعلم المعزز بتدرج السياسة (GRPO)، يحقق QuasiMoTTo أداءً مطابقاً للأداء المستقل (i.i.d.) مع 50% أقل من خطوات التدريب.

تنتج هذه المكاسب عن تغطية أعلى، مما يوفر إشارة تعلم أقوى لكل دفعة.