CARLOS: RL profundo para la detención óptima en tiempo continuo
CARLOS utiliza una red neuronal profunda agregada para aprender una frontera de ejercicio conjunta espacio-temporal para problemas de detención óptima. Refina progresivamente las decisiones de detención a resoluciones temporales más finas y emplea muestreo adaptativo para centrar el entrenamiento cerca de la frontera de detención. Los resultados de benchmark muestran que CARLOS supera a los solucionadores existentes de Bermudan, acercándose al límite superior americano con alta eficiencia.