Колмогоровская регрессия для устойчивых диффузионных политик
Обратное уравнение Колмогорова поднимает диффузионные политики в пространство Камерона-Мартин, заменяя стохастическую сопоставимость на детерминированное дифференциальное уравнение. Этот подход достигает границ сходимости, связанных с эффективным рангом ядра, улучшает регулярность траектории и включает детектор сбоев без вознаграждений, показывая на 17% больший результат и на 67,6% меньшее дрейф на PushT, а также на 28,4% меньшую RMSE с идеальным обнаружением узкого места на производственной линии. Теория гамильтон-якоби снижает количество сбоев в симуляциях на 96%.