El artículo propone SME-OFU, un algoritmo novedoso para bandits contextuales lineales estocásticos con ruido acotado en la recompensa. Logra una cota de arrepentimiento de O(log T) aprovechando la estimación por pertenencia a conjuntos y el optimismo ante la incertidumbre. Las simulaciones muestran que SME-OFU supera un benchmark de ruido sub-Gaussiano cuando el ruido de la recompensa está acotado.
SME-OFU: Enfoque de pertenencia a conjuntos para bandits contextuales lineales estocásticos
Traducido del English → Español