NASDAQ aborda los desafíos de observación de baja dimensión en el aprendizaje por refuerzo al normalizar los espacios de observación para equilibrar las pérdidas de reconstrucción. Integra el aprendizaje de valores con el valor a corto plazo y la predicción de la siguiente observación, logrando un rendimiento competitivo o superior con menos tiempo de entrenamiento en diversos dominios.
NASDAQ: Dinámica del Espacio de Observación Normalizado con Q-Learning Aumentado
Traducido del English → Español