Aproximación de difusión para el aprendizaje TD con características lineales

Se introduce un modelo de ecuación diferencial estocástica para el aprendizaje TD(0) lineal bajo ruido markoviano. Separa la dinámica de contracción de los efectos de muestreo y explica el piso de error mediante la interacción entre la covarianza a largo plazo y la geometría del operador de Bellman proyectado.