В данном исследовании изучается надёжность использования больших языковых моделей в качестве судей для проверки рубрик в сложных агентных сценариях, и предлагается RuVerBench — первый бенчмарк для этой цели. Исследование оценивает передовые модели на задачах глубокого исследования и программирования, показывая, что хотя производительность высока, значительный шум сохраняется при проверке.
- RuVerBench содержит 2458 примеров, охватывающих области глубокого исследования и агентного программирования, каждый с выводами моделей, рубриками и аннотированными человеком метками.
- Даже самые продвинутые LLM демонстрируют существенный шум при проверке рубрик в агентных сценариях.
- Более слабые модели оказываются более чувствительными к вариациям промптов по сравнению с более сильными.
- Пакетная проверка представляет собой компромисс между точностью и эффективностью.
- Голосование большинством обеспечивает эффективное, но убывающее улучшение надёжности.
Авторы опубликовали свой датасет и код, чтобы способствовать будущим исследованиям по повышению согласованности методов автоматической оценки.