Evaluación ciega de 55 LLM: El sesgo de calificación intra-familia es estadísticamente significativo

Una evaluación abierta que involucró a 55 modelos de 11 familias de desarrolladores reveló que los grandes modelos de lenguaje exhiben un sesgo de grupo estadísticamente significativo al calificarse mutuamente en ciego. A lo largo de 22,254 juicios válidos, cada familia con datos suficientes mostró una tendencia a calificar a sus propios miembros de manera diferente a la de otras familias.

Los jueces de Qwen favorecieron a otros modelos de Qwen con +0.91 puntos en una escala de 0-10.
Los jueces de Mistral penalizaron a otros modelos de Mistral con -1.02, el sesgo absoluto más grande observado.
Google y Meta mostraron sesgos negativos de -0.59 y -0.68 respectivamente.
xAI, Anthropic, MiniMax y OpenAI exhibieron sesgos intra-familia positivos que oscilan entre +0.23 y +0.75.

El estudio destaca que los tableros de clasificación agregados son engañosos ya que seis modelos diferentes ocupan el primer lugar en varias categorías, y sugiere que las futuras evaluaciones deben anclar los juicios a la verdad fundamental siempre que sea posible.