Авторы предлагают BINEVAL — фреймворк, который разбивает критерии оценки на атомарные бинарные вопросы для получения интерпретируемых многомерных оценок больших языковых моделей. Этот подход генерирует прозрачную обратную связь на уровне вопросов и калиброванные общие баллы, заставляя LLM независимо отвечать на детализированные вопросы оценки для каждого вывода.
- BINEVAL соответствует или превосходит базовые методы, такие как UniEval и G-Eval, на бенчмарках SummEval, Topical-Chat и QAGS.
- Метод лучше соответствует распределениям человеческих оценок и избегает эффекта потолка, характерного для предыдущих LLM-судей.
- Он обеспечивает превосходную дискриминацию между пограничными и явно ошибочными выводами по сравнению с существующими методами.
- Фреймворк поддерживает итеративную оптимизацию промптов для задач суммаризации и генерации в условиях самообновления и кросс-модельного обновления.
BINEVAL предлагает независимый от задачи фреймворк оценки, не требующий обучения, который сочетает сильную эмпирическую производительность с практической диагностической ценностью и прямой применимостью для улучшения промптов.