NASDAQ aborda los desafíos de observación de baja dimensión en el aprendizaje por refuerzo al normalizar los espacios de observación para equilibrar las pérdidas de reconstrucción. Integra el aprendizaje de valores con el valor a corto plazo y la predicción de la siguiente observación, logrando un rendimiento competitivo o superior con menos tiempo de entrenamiento en diversos dominios.