BabelJudge: Midiendo la confiabilidad del LLM como juez en idiomas y trayectorias de agentes

BabelJudge introduce un marco de código abierto para medir cuatro modos clave de sesgo en jueces LLM a través de idiomas y trayectorias de agentes. Revela una caída significativa en la confiabilidad del hindi al suajili: de 0.714 a 0.550, destacando que la precisión bruta por sí sola no logra capturar fallos críticos como la inconsistencia de orden, que colapsa a 0.480 en suajili. El marco también se extiende a la evaluación agéntica con nueve perturbaciones y tres nuevas métricas, admitiendo 11 backends de jueces mediante un paquete de Python.