AGC-Bench, 인공 일반 창의성 측정을 위한 통합 벤치마크 및 AGC-Judge 도입

연구자들은 3,101편의 선별된 논문으로 구성되고 브레인스토밍 및 STEM과 같은 도메인 전반에 걸쳐 78개의 데이터셋을 아우르는 인공 일반 창의성을 위한 통합 벤치마크인 AGC-Bench를 소개했습니다. 자동 평가의 편향을 해결하기 위해 팀은 편향 보정 등급으로 Qwen3-30B를 파인튜닝하여 새로운 창의성 벤치마크를 강건하게 채점하는 오픈 가중치 모델인 AGC-Judge를 만들었습니다.

벤치마크는 내러티브, 유머, 비유적 언어를 포함한 78개의 데이터셋을 아우르며 HELM에 표준화된 에이전트 하니스를 통해 평가됩니다.
83개 LLM에 걸친 요인 분석은 분산의 81.5%를 설명하는 단일 창의성 요인 'c'를 복원하며, 이는 일반 지능과 관련되지만 분리 가능합니다.
모델에게 "창의적이 되라"고 프롬프트하면 추론을 활성화하는 것보다 성능이 훨씬 더 크게 향상되어 벤치마크가 일반 능력보다 창의성을 추적하고 있음을 확인했습니다.
인간 매칭 하위 집합에서 상위 인간은 여전히 창의성 작업에서 상위 LLM을 능가합니다.

이번 릴리스는 대규모 AI 창의성 측정을 위한 오픈 인프라를 제공하며, AI 창의성이 인간의 능력 및 일반 지능과 어떻게 비교되는지에 대한 통찰력을 제공합니다.