Новый подход, называемый отрицательной фильтрацией токенов, обеспечивает стабильное одноразовое обучение RL за счёт предотвращения ложных штрафов на отрицательных образцах. Метод улучшает производительность на агентских задачах по сравнению с групповыми методами RL, при этом соответствует групповым методам по задачам логического мышления.
Отрицательная фильтрация токенов для стабильного одноразового обучения RL
Переведено с English → Русский