新しい評価フレームワークは、大規模言語モデルによって生成された研究アイデアと人間研究者によって生成されたアイデアの間の乖離を測定する。この研究は、高品質な論文からの先行研究をリバースエンジニアリングしてLLMにプロンプトを与え、機会のパターンと研究パラダイムに基づく2軸の研究嗜好分類法を用いて出力をプロファイリングする。

  • LLMが生成したアイデアは、橋渡し的な機会と合成手法の周りに不均衡に集中している。
  • 人間の論文参照は、ギャップの枠組みや貢献の構築方法においてより広範に分布している。
  • この分布のギャップは異なるLLM間で一貫しており、人間嗜好に対する体系的なシフトを示している。

結果は、強力なLLMが妥当なアイデアを生成できる一方で、その範囲が人間研究者のものよりも狭いままであることを示唆している。