BabelJudge: Оценка надежности LLM-как-судьи на разных языках и в траекториях агентов

BabelJudge представляет открытую платформу для измерения четырех ключевых форм искажений в LLM-судьях на разных языках и в траекториях агентов. Платформа выявляет значительное падение надежности от хинди до сواхили — с 0,714 до 0,550 — что подчеркивает неспособность чистой точности выявлять критические сбои, такие как несоответствие порядка, который в сواхили сокращается до 0,480. Платформа также расширяется на оценку агентов с девятью вариациями и тремя новыми метриками, поддерживая 11 судейских бэкендов через пакет на языке Python.