BabelJudge: Midiendo la confiabilidad de LLM-as-a-Judge en múltiples idiomas y trayectorias de agentes

BabelJudge introduce un marco de código abierto para medir cuatro modos clave de sesgo en jueces LLM a través de idiomas y trayectorias de agentes. Revela una caída significativa en la confiabilidad del hindi al suajili: de 0.714 a 0.550, destacando una degradación intercultural invisible para la precisión bruta. El marco permite evaluaciones conscientes del sesgo sin etiquetas humanas, utilizando perturbaciones controladas para crear etiquetas doradas conocidas, y se extiende a flujos de trabajo agénticos con nuevas métricas sobre precisión de herramientas y detección de alucinaciones.