Aproximación de difusión para el aprendizaje TD con características lineales
Se introduce un modelo de ecuación diferencial estocástica para el aprendizaje TD(0) lineal bajo ruido markoviano. Separa la dinámica de contracción de los efectos de muestreo y explica el piso de error mediante la interacción entre la covarianza a largo plazo y la geometría del operador de Bellman proyectado.