Litmus — это система с нулевой разметкой, которая разрабатывает метрики оценки и мониторинга для ИИ-конвейеров, извлекая намерения оценки из исходного кода и целенаправленного допроса. Вместо того чтобы предполагать, что объект оценки известен, она определяет, что именно необходимо измерять и зачем, чтобы сформировать обоснованный портфель метрик.

  • Протестирована на трёх реальных конвейерах ИИ, определённых кодом: группировка финансовых счетов, научный QA (вопрос-ответ) и оценка присущих рисков.
  • Обеспечила самое широкое или равное по ширине покрытие проблемных областей и охватывает больше этапов конвейера, чем AutoMetrics и три базовых варианта DynamicRubric.
  • Сформировала портфель с почти нулевой избыточностью и заняла первое место по валидности против меток качества на строку во всех трёх конвейерах.
  • Решительно превзошла базовые варианты на задаче научного QA, показав коэффициент корреляции Спирмена 0,72 против менее чем 0,47 для каждого базового варианта.

Результаты поддерживают переход от автоматической реализации метрик к их автоматическому заданию, утверждая, что системы оценки должны сначала определять, что именно необходимо измерять и зачем.