새로운 평가 프레임워크는 대규모 언어 모델(LLM)이 생성한 연구 아이디어와 인간 연구자가 생산한 아이디어 간의 차이를 측정합니다. 이 연구는 고품질 논문으로부터 선행 연구를 역공학하여 LLM에 프롬프트를 제공하고, 기회 패턴과 연구 패러다임을 기반으로 한 2축 연구 취향 분류법을 사용하여 출력을 프로파일링합니다.

  • LLM이 생성한 아이디어는 다리와 같은 기회와 합성 방법 주변에 불균형하게 집중되어 있습니다.
  • 인간 논문 참조는 격차를 설정하고 기여를 구성하는 방식 전반에 걸쳐 더 넓게 분포합니다.
  • 이 분포적 격차는 서로 다른 LLM들 사이에서 일관되게 나타나며, 인간의 취향에 대한 체계적인 편향을 나타냅니다.

이 결과는 강력한 LLM이 합리적인 아이디어를 생성할 수 있지만, 그 범위가 인간 연구자의 범위보다 여전히 좁다는 것을 시사합니다.