Задавайте вопросы, а не осуждайте: бинарные вопросы для интерпретируемой оценки и самоусовершенствования LLM

Авторы предлагают BINEVAL — фреймворк, который разбивает критерии оценки на атомарные бинарные вопросы для получения интерпретируемых многомерных оценок больших языковых моделей. Этот подход генерирует прозрачную обратную связь на уровне вопросов и калиброванные общие баллы, заставляя LLM независимо отвечать на детализированные вопросы оценки для каждого вывода.

BINEVAL соответствует или превосходит базовые методы, такие как UniEval и G-Eval, на бенчмарках SummEval, Topical-Chat и QAGS.
Метод лучше соответствует распределениям человеческих оценок и избегает эффекта потолка, характерного для предыдущих LLM-судей.
Он обеспечивает превосходную дискриминацию между пограничными и явно ошибочными выводами по сравнению с существующими методами.
Фреймворк поддерживает итеративную оптимизацию промптов для задач суммаризации и генерации в условиях самообновления и кросс-модельного обновления.

BINEVAL предлагает независимый от задачи фреймворк оценки, не требующий обучения, который сочетает сильную эмпирическую производительность с практической диагностической ценностью и прямой применимостью для улучшения промптов.