SME-OFU: Подход на основе множества членов для стохастических линейных контекстуальных лент
В статье предложена алгоритм SME-OFU, новый подход для стохастических линейных контекстуальных лент с ограниченным шумом вознаграждения. Он достигает границы потерь O(log T) за счёт использования оценки множества членов и оптимизма в условиях неопределённости. Симуляции показывают, что SME-OFU превосходит под-гауссовый шум в качестве эталона при ограниченном шуме вознаграждения.