Обратное уравнение Колмогорова поднимает диффузионные политики в пространство Камерона-Мартин, заменяя стохастическое сопоставление на детерминированное дифференциальное уравнение. Этот подход обеспечивает границы сходимости, связанные с эффективным рангом ядра, улучшает регулярность траекторий и позволяет использовать детерминированный детектор сбоев без вознаграждений. Проверка показала на 17% больший результат на PushT и на 28,4% меньшую RMSE на производственной линии, при снижении количества сбоев на 96% за счёт сертификации по уравнению Гамильтона-Якоби.
Колмогоровская регрессия для устойчивых диффузионных политик
Переведено с English → Русский