Использование сходств в многоручных бандитах
В данном исследовании рассматривается онлайн-обучение с множествами действий, структурированными по сходству и закодированными корневыми деревьями, показывая, что стандартная одноточечная обратная связь не может использовать эти сходства. Авторы предлагают унифицированные алгоритмы для более богатых моделей обратной связи, которые заменяют количество действий на эффективное число с учётом сходства для улучшения границ регрета.