El artículo presenta un algoritmo de Q-learning robusto para problemas de control de campo medio en tiempo discreto con incertidumbre de Wasserstein en ruido común. Combina cuantificación y proyección con una reformulación dual de Wasserstein y establece convergencia con cotas de tiempo finito tanto para esquemas síncronos como asíncronos. Los experimentos numéricos en modelos de riesgo sistémico y epidemias demuestran la compensación entre robustez y rendimiento, así como la convergencia de la implementación asíncrona.