El acertijo del acertijo: evaluando el razonamiento flexible en modelos de lenguaje grandes y humanos

Un estudio introduce el paradigma "acertijo del acertijo" para determinar si los modelos de lenguaje grandes (LLMs) dependen del razonamiento flexible o del emparejamiento de patrones, revelando que los humanos y los LLMs fallan en direcciones opuestas. En experimentos que involucraron a nueve LLMs de última generación y 100 participantes humanos, los LLMs tuvieron un rendimiento significativamente peor en acertijos del acertijo que en acertijos genuinos, mientras que los humanos mostraron la tendencia inversa.

Los LLMs alcanzaron una precisión del 84.9% en acertijos genuinos pero solo del 50.7% en acertijos del acertijo, mientras que los humanos obtuvieron un puntaje del 50.5% en acertijos genuinos y del 80.5% en acertijos del acertijo.
El análisis de errores indica que el 90.8% de los errores de los LLMs en acertijos del acertijo resultaron del uso inapropiado del razonamiento inventivo, en comparación con solo el 57.6% de los errores humanos en acertijos genuinos.
Los hallazgos sugieren que el fuerte rendimiento de los LLMs en acertijos genuinos probablemente refleja la recuperación de memoria en lugar de la selección flexible de estrategias basada en el contenido.

Los autores argumentan que sin estímulos diseñados para elicitar este contraste, es fácil confundir las salidas generadas por LLMs que se asemejan al razonamiento con capacidades reales de razonamiento flexible.