NASDAQ aborda los desafíos de observación de baja dimensión en el aprendizaje por refuerzo normalizando los espacios de observación para equilibrar las pérdidas de reconstrucción entre dimensiones. El marco combina el aprendizaje de valores con el valor a corto plazo y la predicción de la siguiente observación, logrando un rendimiento competitivo o superior con menos tiempo de entrenamiento en comparación con los métodos existentes.
NASDAQ: Dinámica del Espacio de Observación Normalizada con Q-Learning Aumentado
Traducido del English → Español