Litmus — это система с нулевой разметкой, которая разрабатывает метрики оценки и мониторинга для ИИ-конвейеров, извлекая намерения оценки из исходного кода и целенаправленного допроса. Вместо того чтобы предполагать, что объект оценки известен, она определяет, что именно необходимо измерять и зачем, чтобы сформировать обоснованный портфель метрик.
- Протестирована на трёх реальных конвейерах ИИ, определённых кодом: группировка финансовых счетов, научный QA (вопрос-ответ) и оценка присущих рисков.
- Обеспечила самое широкое или равное по ширине покрытие проблемных областей и охватывает больше этапов конвейера, чем AutoMetrics и три базовых варианта DynamicRubric.
- Сформировала портфель с почти нулевой избыточностью и заняла первое место по валидности против меток качества на строку во всех трёх конвейерах.
- Решительно превзошла базовые варианты на задаче научного QA, показав коэффициент корреляции Спирмена 0,72 против менее чем 0,47 для каждого базового варианта.
Результаты поддерживают переход от автоматической реализации метрик к их автоматическому заданию, утверждая, что системы оценки должны сначала определять, что именно необходимо измерять и зачем.