МАСТ обеспечивает селективное исчезновение в процессе принятия решений, вызванных RLVR
МАСТ, метод селективного исчезновения, обеспечивает целенаправленное забвение процесса принятия решений, вызванного RLVR, с минимальными побочными эффектами. На Qwen2.5-Math-1.5B и Qwen3-1.7B-Base он значительно снижает производительность MATH (45/150 до 37/150), сохраняя точность GSM8K на +0.8 пунктов и поддерживая сохранение MATH на -0.5 пунктов. Результаты остаются стабильными при различных семенах, целях и моделях, демонстрируя превосходную стабильность по сравнению с полным исчезновением параметров.