Можно ли надёжно проверять рубрики с помощью LLM-as-a-Judge в агентных сценариях?

В данном исследовании изучается надёжность использования больших языковых моделей в качестве судей для проверки рубрик в сложных агентных сценариях, и предлагается RuVerBench — первый бенчмарк для этой цели. Исследование оценивает передовые модели на задачах глубокого исследования и программирования, показывая, что хотя производительность высока, значительный шум сохраняется при проверке.

RuVerBench содержит 2458 примеров, охватывающих области глубокого исследования и агентного программирования, каждый с выводами моделей, рубриками и аннотированными человеком метками.
Даже самые продвинутые LLM демонстрируют существенный шум при проверке рубрик в агентных сценариях.
Более слабые модели оказываются более чувствительными к вариациям промптов по сравнению с более сильными.
Пакетная проверка представляет собой компромисс между точностью и эффективностью.
Голосование большинством обеспечивает эффективное, но убывающее улучшение надёжности.

Авторы опубликовали свой датасет и код, чтобы способствовать будущим исследованиям по повышению согласованности методов автоматической оценки.