一个新的评估框架衡量了由大型语言模型生成的研究想法与人类研究人员产生的研究想法之间的差异。该研究通过逆向工程高质量论文中的先前工作来提示LLM,然后使用基于机会模式和研究范式的两轴研究品味分类法对输出进行分析。

  • LLM生成的想法不成比例地集中在类似桥梁的机会和综合方法周围。
  • 人类论文的参考文献在构建贡献和框架差距的方式上分布得更广泛。
  • 这种分布差异在不同的LLM中是一致的,表明相对于人类品味存在系统性偏移。

结果表明,虽然强大的LLM可以产生合理的想法,但其范围仍然比人类研究人员更窄。