Исследование выявляет, что идеи для исследований с помощью LLM систематически уже, чем у людей

Новая система оценки измеряет расхождение между идеями для исследований, генерируемыми большими языковыми моделями, и теми, что создаются исследователями-людьми. В ходе исследования авторы реконструировали предыдущие работы из высококачественных статей, чтобы сформировать промпты для LLM, а затем профилировали результаты с помощью двухосевой таксономии исследовательского вкуса на основе паттернов возможностей и исследовательских парадигм.

Идеи, генерируемые LLM, непропорционально сосредоточены вокруг «мостовых» возможностей и методов синтеза.
Ссылки в статьях людей более широко распределены по способам формулирования пробелов и формирования вкладов.
Распределительный разрыв сохраняется при использовании различных LLM, что указывает на систематический сдвиг относительно человеческого вкуса.

Результаты показывают, что, хотя мощные LLM способны генерировать разумные идеи, их диапазон остается уже, чем у исследователей-людей.