Задавайте вопросы, а не осуждайте: бинарные вопросы для интерпретируемой оценки и самоусовершенствования LLM
Авторы предлагают BINEVAL — фреймворк, который разбивает критерии оценки на атомарные бинарные вопросы для получения интерпретируемых многомерных оценок больших языковых моделей. Этот подход генерирует прозрачную обратную связь на уровне вопросов и калиброванные общие баллы, заставляя LLM независимо отвечать на детализированные вопросы оценки для каждого вывода.