Загадка загадок: тестирование гибкого мышления у больших языковых моделей и людей

Исследование вводит парадигму «загадки-загадки» для определения того, полагаются ли большие языковые модели (LLM) на гибкое мышление или на сопоставление шаблонов, выявляя, что люди и LLM терпят неудачу в противоположных направлениях. В экспериментах с участием девяти современных LLM и 100 человек-участников LLM показали значительно худшие результаты на загадках-загадках по сравнению с настоящими загадками, тогда как люди продемонстрировали обратную тенденцию.

LLM достигли точности 84,9% на настоящих загадках, но только 50,7% на загадках-загадках, в то время как люди набрали 50,5% на настоящих загадках и 80,5% на загадках-загадках.
Анализ ошибок показывает, что 90,8% ошибок LLM на загадках-загадках были вызваны неуместным использованием изобретательного мышления, по сравнению с лишь 57,6% ошибок людей на настоящих загадках.
Результаты указывают на то, что высокая производительность сильных LLM на настоящих загадках, вероятно, отражает извлечение из памяти, а не гибкий выбор стратегии на основе содержания.

Авторы утверждают, что без стимулов, предназначенных для выявления этого контраста, легко спутать выводы, сгенерированные LLM и напоминающие мышление, с реальными способностями к гибкому мышлению.