Un marco de diagnóstico y auditoría multi-evaluadora de las dinámicas de preferencia impulsadas por el evaluador en agentes LLM autoadaptativos
El artículo documenta cómo las mediciones de los evaluadores LLM propietarios pueden volverse inválidas en cuestión de semanas, presentando el marco EPC para detectar dicha inestabilidad. Aplica este diagnóstico a través de ocho condiciones experimentales, revelando que la inestabilidad condicional por versión hace que los estudios de evaluadores con una sola instantánea sean poco confiables.