Kerangka evaluasi baru mengukur divergensi antara ide penelitian yang dihasilkan oleh model bahasa besar (LLM) dan yang diproduksi oleh peneliti manusia. Studi ini melakukan reverse-engineering terhadap karya sebelumnya dari makalah berkualitas tinggi untuk memberikan prompt pada LLM, lalu memprofilkan output menggunakan taksonomi selera penelitian dua sumbu berdasarkan pola peluang dan paradigma penelitian.

  • Ide yang dihasilkan LLM secara tidak proporsional terkonsentrasi di sekitar peluang seperti jembatan dan metode sintesis.
  • Referensi makalah manusia tersebar lebih luas di berbagai cara untuk membingkai kesenjangan dan membangun kontribusi.
  • Kesenjangan distribusi konsisten di berbagai LLM, menunjukkan pergeseran sistematis relatif terhadap selera manusia.

Hasilnya menunjukkan bahwa meskipun LLM yang kuat dapat menghasilkan ide yang masuk akal, jangkauannya tetap lebih sempit daripada peneliti manusia.