Aprovechar las similitudes en los bandits de brazos múltiples
Este estudio investiga el aprendizaje en línea con conjuntos de acciones estructurados por similitud codificados mediante árboles enraizados, demostrando que la retroalimentación estándar de un solo punto no puede explotar estas similitudes. Los autores proponen algoritmos unificados para modelos de retroalimentación más ricos que reemplazan el número de acciones por un conteo efectivo consciente de la similitud para mejorar los límites de arrepentimiento.