El artículo presenta un algoritmo de Q-learning robusto para problemas de control de campo medio en tiempo discreto con incertidumbre de Wasserstein en ruido común. Combina cuantificación y proyección con una reformulación dual de Wasserstein y demuestra convergencia con cotas de tiempo finito tanto para esquemas síncronos como asíncronos. Los experimentos numéricos en modelos de riesgo sistémico y epidemias muestran la compensación entre robustez y rendimiento de la implementación asíncrona, así como su convergencia bajo especificación incorrecta del ruido común.