В данном исследовании изучается надёжность использования больших языковых моделей в качестве судей для проверки рубрик в сложных агентных сценариях, и предлагается RuVerBench — первый бенчмарк для этой цели. Исследование оценивает передовые модели на задачах глубокого исследования и программирования, показывая, что хотя производительность высока, значительный шум сохраняется при проверке.

  • RuVerBench содержит 2458 примеров, охватывающих области глубокого исследования и агентного программирования, каждый с выводами моделей, рубриками и аннотированными человеком метками.
  • Даже самые продвинутые LLM демонстрируют существенный шум при проверке рубрик в агентных сценариях.
  • Более слабые модели оказываются более чувствительными к вариациям промптов по сравнению с более сильными.
  • Пакетная проверка представляет собой компромисс между точностью и эффективностью.
  • Голосование большинством обеспечивает эффективное, но убывающее улучшение надёжности.

Авторы опубликовали свой датасет и код, чтобы способствовать будущим исследованиям по повышению согласованности методов автоматической оценки.