Новая система оценки измеряет расхождение между идеями для исследований, генерируемыми большими языковыми моделями, и теми, что создаются исследователями-людьми. В ходе исследования авторы реконструировали предыдущие работы из высококачественных статей, чтобы сформировать промпты для LLM, а затем профилировали результаты с помощью двухосевой таксономии исследовательского вкуса на основе паттернов возможностей и исследовательских парадигм.

  • Идеи, генерируемые LLM, непропорционально сосредоточены вокруг «мостовых» возможностей и методов синтеза.
  • Ссылки в статьях людей более широко распределены по способам формулирования пробелов и формирования вкладов.
  • Распределительный разрыв сохраняется при использовании различных LLM, что указывает на систематический сдвиг относительно человеческого вкуса.

Результаты показывают, что, хотя мощные LLM способны генерировать разумные идеи, их диапазон остается уже, чем у исследователей-людей.