Regresión de Kolmogorov para Políticas de Difusión Robustas
Una ecuación de Kolmogorov hacia atrás eleva las políticas de difusión a un espacio de Cameron-Martin, reemplazando el emparejamiento estocástico de puntuaciones con una EDP determinista. Este enfoque logra cotas de convergencia vinculadas al rango efectivo del núcleo, mejora la regularidad de la trayectoria y permite un detector de fallos determinista sin recompensas. La validación muestra un 17% más de recompensa en PushT y un 28.4% menos de RMSE en una línea de fabricación, con una reducción del 96% en eventos de punto muerto mediante certificación de Hamilton-Jacobi.