AGC-Benchが人工一般創造性を測定するための統一ベンチマークとAGC-Judgeを導入

研究者らは、3,101件の厳選された論文から構築され、ブレインストーミングやSTEMなどの分野にわたる78のデータセットをカバーする人工一般創造性のための統一ベンチマークであるAGC-Benchを発表した。自動評価におけるバイアスに対処するため、チームはバイアス補正済みレーティングでQwen3-30Bをファインチューニングし、新しい創造性ベンチマークを堅牢に採点するオープンウェイトモデルのAGC-Judgeを作成した。

ベンチマークはナラティブ、ユーモア、比喩的言語を含む78のデータセットにまたがり、HELMに標準化されたエージェントハーネスによって評価される。
83のLLMにわたる因子分析により、分散の81.5%を説明する単一の創造性因子「c」が抽出され、これは一般知能に関連しつつも分離可能であることが示された。
モデルに「創造的になれ」とプロンプトすることで、推論を有効にするよりも大幅にパフォーマンスが向上し、ベンチマークが一般的な能力ではなく創造性を追跡していることが確認された。
人間とマッチさせたサブセットでは、トップの人間が創造性タスクにおいてトップのLLMを上回っている。

今回のリリースは、大規模なAI創造性の測定のためのオープンインフラストラクチャを提供し、AI創造性が人間の能力や一般知能と比較してどうなるかについての洞察をもたらす。