Evaluación ciega de 55 LLM: El sesgo de calificación intra-familia es estadísticamente significativo
Una evaluación abierta que involucró a 55 modelos de 11 familias de desarrolladores reveló que los grandes modelos de lenguaje exhiben un sesgo de grupo estadísticamente significativo al calificarse mutuamente en ciego. A lo largo de 22,254 juicios válidos, cada familia con datos suficientes mostró una tendencia a calificar a sus propios miembros de manera diferente a la de otras familias.