Reducción de la varianza en el aprendizaje por diferencia temporal

El aprendizaje por diferencia temporal reduce la varianza agregando sobre múltiples trayectorias. El estudio muestra que la varianza de TD está acotada asintóticamente por encima de los estimadores de Monte Carlo, y las actualizaciones de horizonte más corto reducen la varianza para muestras fijas. La Estimación Directa de la Ventaja actúa como una variable de control ajustada por regresión, logrando límites de varianza más estrictos que TD en grandes muestras.