Los LLM tienen dificultades para capturar la discriminación de ítems en evaluaciones de lectura

Un estudio descubre que los modelos de lenguaje grandes no logran medir de manera confiable la discriminación de ítems en evaluaciones de comprensión lectora. Aunque algunos modelos muestran una alineación débil con las puntuaciones calibradas por humanos —que oscilan entre 0.152 y 0.241—, los LLM actuales no capturan adecuadamente cómo los ítems de evaluación distinguen a estudiantes de diferentes niveles de competencia.