Um novo framework de avaliação mede a divergência entre as ideias de pesquisa geradas por grandes modelos de linguagem e aquelas produzidas por pesquisadores humanos. O estudo reengenha trabalhos anteriores a partir de artigos de alta qualidade para criar prompts para LLMs, então perfila as saídas usando uma taxonomia de gosto de pesquisa de dois eixos baseada em padrões de oportunidade e paradigmas de pesquisa.

  • As ideias geradas por LLM estão desproporcionalmente concentradas em torno de oportunidades tipo ponte e métodos de síntese.
  • As referências a artigos humanos se espalham mais amplamente entre as formas de enquadrar lacunas e construir contribuições.
  • A lacuna distributiva é consistente entre diferentes LLMs, indicando uma mudança sistemática em relação ao gosto humano.

Os resultados sugerem que, embora LLMs fortes possam produzir ideias razoáveis, seu alcance permanece mais estreito do que o dos pesquisadores humanos.