Optimización de Preferencias Culturales Dirigibles en Modelos de Recompensa
Este artículo presenta SCPO, un nuevo algoritmo de entrenamiento de modelos de recompensa que equilibra diversas preferencias culturales entre subcomunidades. SCPO mejora el rendimiento de los modelos de recompensa de minorías hasta en 7 puntos en dos conjuntos de datos y siete países, mientras que es hasta un 280% más eficiente en el uso de datos de entrenamiento que el ajuste fino con todos los datos. El análisis muestra una reducción del sesgo a través de la evaluación dirigida de las preferencias de la subcomunidad.