Отрицательная фильтрация токенов для стабильного одноразового обучения RL

Новый подход, называемый отрицательной фильтрацией токенов, обеспечивает стабильное одноразовое обучение RL за счёт предотвращения ложных штрафов на отрицательных образцах. Метод улучшает производительность на агентских задачах по сравнению с групповыми методами RL, при этом соответствует групповым методам по задачам логического мышления.