Poller: ¿Son los LLM adecuados para evaluar la tarea de comprensión poética?

Este artículo presenta Poller (Poetry LLM Evaluator), un método novedoso que aprovecha los modelos de lenguaje grandes para evaluar la comprensión poética emulando el juicio humano mediante la interpretación de roles. El enfoque requiere que los LLM adopten la perspectiva del autor del poema, utilizando información detallada para cerrar la brecha entre la eficiencia automatizada y la experiencia humana.

Poller reduce el error de evaluación entre los LLM y los humanos al hacer que los modelos interpreten el rol del autor del poema.
El método evalúa las interpretaciones poéticas en ocho dimensiones especializadas.
Para las técnicas retóricas, los LLM basados en Poller logran una reducción del error del 94.55% en comparación con los métodos de referencia.
Para la desnaturalización, el método logra una reducción del error del 89.53% sobre los enfoques convencionales de evaluación.

Este trabajo establece una base para la evaluación automatizada en tareas relacionadas con la poesía al combinar eficazmente la eficiencia de los LLM con la sutileza de la experiencia humana.