Регулируемая оптимизация культурных предпочтений в моделях вознаграждения

Эта статья представляет SCPO — новую алгоритм для обучения моделей вознаграждения, которая сбалансирует разнообразные культурные предпочтения в подсообществах. SCPO повышает производительность моделей вознаграждения меньшинств на 7 пунктов на двух наборах данных и семи странах, при этом обеспечивая эффективность обучения на 280% выше, чем при полном тонком настройке на весь набор данных. Анализ показывает, что снижение смещения достигается за счёт оценки предпочтений подсообществ в целевых направлениях.