Se introduce un modelo de ecuación diferencial estocástica para el aprendizaje TD(0) lineal bajo ruido markoviano. Separa la dinámica de contracción de los efectos de muestreo y explica el piso de error mediante la interacción entre la covarianza a largo plazo y la geometría del operador de Bellman proyectado.