Социальная теория выбора в области выравнивания ИИ

Новая обзорная статья исследует, как теория социального выбора помогает агрегировать человеческую обратную связь в области выравнивания ИИ. В ней выявлены режимы сбоев в агрегации обратной связи и предлагаются принципиальные методы для обработки несогласия между человеческими оценками.