Методологическая рамка оценки социальной предвзятости в ЛЛМ

Единая рамка стандартизирует оценку бенчмарков для сравнения изолированных и сравнительных сценариев обнаружения социальной предвзятости. Результаты показывают, что сравнительные сценарии усиливают скрытую дискриминацию, особенно при использовании метода цепочки мыслей, и эта предвзятость сохраняется даже при использовании нейтральных фалиб. Эффект растет с размером модели, что указывает на то, что сравнительные развертывания являются небезопасными в амбивалентных реальных сценариях.