Poller: Подходят ли LLM для задачи оценки понимания поэзии?

В данной статье представлен Poller (Poetry LLM Evaluator), новый метод, использующий большие языковые модели для оценки понимания поэзии путем имитации человеческого суждения через ролевую игру. Метод требует от LLM принятия перспективы автора стихотворения, используя подробную информацию для преодоления разрыва между автоматизированной эффективностью и человеческой экспертизой.

Poller снижает ошибку оценки между LLM и людьми за счет того, что модели играют роль автора стихотворения.
Метод оценивает интерпретации стихотворений по восьми специализированным измерениям.
Для риторических приемов LLM на основе Poller достигают снижения ошибки на 94,55% по сравнению с базовыми методами.
Для приема остранения метод достигает снижения ошибки на 89,53% по сравнению с традиционными подходами к оценке.

Эта работа закладывает основу для автоматизированной оценки в задачах, связанных с поэзией, эффективно сочетая эффективность LLM с нюансами человеческой экспертизы.