Обучение без вознаграждения на визуальных потоках

Новый подход позволяет осуществлять обучение с вознаграждением и наказанием в режиме онлайн без наличия вознаграждений от среды, используя только фиксированные визуальные пакеты. Он обеспечивает высокую точность в инференсе значений и оптимизации политики, при этом B_xi достигает точности 0,952 по сбалансированному знаку вознаграждения и общая производительность политики достигает 0,979 по точности оптимального действия в проверенных задачах, превосходя контрольные варианты, такие как нулевое вознаграждение и перемешанные цели.