Un nouveau cadre d'évaluation mesure la divergence entre les idées de recherche générées par les grands modèles de langage (LLM) et celles produites par les chercheurs humains. L'étude reverse-engineerise des travaux antérieurs tirés d'articles de haute qualité pour générer des prompts vers les LLM, puis profile les sorties à l'aide d'une taxonomie du goût en recherche à deux axes basée sur les motifs d'opportunité et les paradigmes de recherche.

  • Les idées générées par les LLM sont disproportionnellement concentrées autour des opportunités de type « pont » et des méthodes de synthèse.
  • Les références aux articles humains se répartissent plus largement selon les façons de cadrer les lacunes et de construire les contributions.
  • L'écart distributionnel est cohérent à travers différents LLM, indiquant un décalage systématique par rapport au goût humain.

Les résultats suggèrent que, bien que les LLM puissants puissent produire des idées raisonnables, leur gamme reste plus étroite que celle des chercheurs humains.