El artículo documenta cómo las mediciones de los evaluadores LLM propietarios pueden volverse inválidas en cuestión de semanas, presentando el marco EPC para detectar dicha inestabilidad. Aplica este diagnóstico a través de ocho condiciones experimentales, revelando que la inestabilidad condicional por versión hace que los estudios de evaluadores con una sola instantánea sean poco confiables.

  • El marco EPC comprende el Índice de Colapso de Preferencia Multimodal (MPCI), la matriz de acoplamiento indexada por evaluador y la divergencia Jensen-Shannon (JSD).
  • Cuatro condiciones mostraron un fuerte acoplamiento, incluyendo GPT-4o mayo, GPT-4o-mini, Qwen3.7-plus y DashScope 30r.
  • Cuatro condiciones colapsaron a un acoplamiento cercano a cero, incluyendo GPT-4o junio, qwen-plus, LR simétrico y autoevaluación de DeepSeek.
  • Una re-replicación de GPT-4o de mayo a junio invirtió la conclusión del estudio, destacando una deriva significativa.
  • La autoevaluación colapsó consistentemente con un 97% de valores cero y un JSD de 0.003.

Los autores consideran esto importante porque el patrón de inestabilidad condicional por versión demuestra que los estudios de una sola instantánea no son confiables para evaluar agentes LLM.