Un nuevo marco utiliza Q-sorts simétricos humano-LLM para evaluar cómo los modelos de lenguaje grandes se alinean estructuralmente con los valores morales. Al comparar clasificaciones de 140 declaraciones morales entre 12 LLMs y una muestra de referencia humana, el estudio identifica heterogeneidad trans-familiar e inalineaciones localizadas, mostrando que las puntuaciones globales de rendimiento pueden ocultar defectos estructurales. Los resultados destacan la necesidad de evaluaciones estructurales para complementar los benchmarks morales tradicionales a nivel de ítem.
Los Q-Sorts Simétricos Miden la Alineación de Valores-Estructura en LLMs
Traducido del English → Español