Sesgo de segundo orden en LLMs: Evaluación del sesgo basado en juicios

Un nuevo estudio identifica un sesgo de segundo orden en los modelos de lenguaje grandes (LLMs): un sesgo social en sus juicios sobre contenido sesgado. Utilizando la epistemología del derecho, la investigación desarrolla una tarea de razonamiento para evaluar si los LLMs aceptan o rechazan textos sesgados basándose en la demografía, revelando sesgos implícitos que varían según el grupo objetivo y evaden las barreras de seguridad. El trabajo introduce dos métricas para cuantificar estos sesgos y aboga por métodos de evaluación más fundamentados teóricamente en PLN.