Litmus: Нулевая разметка, управляемое кодом задание метрик для оценки ИИ-систем

Litmus — это система с нулевой разметкой, которая разрабатывает метрики оценки и мониторинга для ИИ-конвейеров, извлекая намерения оценки из исходного кода и целенаправленного допроса. Вместо того чтобы предполагать, что объект оценки известен, она определяет, что именно необходимо измерять и зачем, чтобы сформировать обоснованный портфель метрик.

Протестирована на трёх реальных конвейерах ИИ, определённых кодом: группировка финансовых счетов, научный QA (вопрос-ответ) и оценка присущих рисков.
Обеспечила самое широкое или равное по ширине покрытие проблемных областей и охватывает больше этапов конвейера, чем AutoMetrics и три базовых варианта DynamicRubric.
Сформировала портфель с почти нулевой избыточностью и заняла первое место по валидности против меток качества на строку во всех трёх конвейерах.
Решительно превзошла базовые варианты на задаче научного QA, показав коэффициент корреляции Спирмена 0,72 против менее чем 0,47 для каждого базового варианта.

Результаты поддерживают переход от автоматической реализации метрик к их автоматическому заданию, утверждая, что системы оценки должны сначала определять, что именно необходимо измерять и зачем.