연구자들은 3,101편의 선별된 논문으로 구성되고 브레인스토밍 및 STEM과 같은 도메인 전반에 걸쳐 78개의 데이터셋을 아우르는 인공 일반 창의성을 위한 통합 벤치마크인 AGC-Bench를 소개했습니다. 자동 평가의 편향을 해결하기 위해 팀은 편향 보정 등급으로 Qwen3-30B를 파인튜닝하여 새로운 창의성 벤치마크를 강건하게 채점하는 오픈 가중치 모델인 AGC-Judge를 만들었습니다.
- 벤치마크는 내러티브, 유머, 비유적 언어를 포함한 78개의 데이터셋을 아우르며 HELM에 표준화된 에이전트 하니스를 통해 평가됩니다.
- 83개 LLM에 걸친 요인 분석은 분산의 81.5%를 설명하는 단일 창의성 요인 'c'를 복원하며, 이는 일반 지능과 관련되지만 분리 가능합니다.
- 모델에게 "창의적이 되라"고 프롬프트하면 추론을 활성화하는 것보다 성능이 훨씬 더 크게 향상되어 벤치마크가 일반 능력보다 창의성을 추적하고 있음을 확인했습니다.
- 인간 매칭 하위 집합에서 상위 인간은 여전히 창의성 작업에서 상위 LLM을 능가합니다.
이번 릴리스는 대규모 AI 창의성 측정을 위한 오픈 인프라를 제공하며, AI 창의성이 인간의 능력 및 일반 지능과 어떻게 비교되는지에 대한 통찰력을 제공합니다.