Изучение справедливых парето-оптимальных политик в многокритериальной робастной обучении
Статья представляет рамку для многополитической многокритериальной робастной обучения, которая обучает набор парето-оптимальных политик, обеспечивающих справедливость в различных предпочтениях пользователей. В ней доказывается, что справедливые политики остаются в выпуклой области покрытия для вогнутых функций благосостояния, таких как GGF, и предлагаются три алгоритма, которые включают нестационарные и стохастические политики для адаптации к историческим несправедливостям. Эмпирические результаты показывают, что эти методы эффективно обучают справедливые политики в различных областях.