AGC-Bench 推出统一基准和 AGC-Judge，用于衡量人工通用创造力

研究人员推出了 AGC-Bench，这是一个用于衡量人工通用创造力的统一基准，由 3,101 篇筛选过的论文构建而成，涵盖头脑风暴和 STEM 等领域的 78 个数据集。为了解决自动化评估中的偏见问题，团队在纠正偏见的评分上微调了 Qwen3-30B，创建了 AGC-Judge，这是一个开放权重的模型，能够稳健地对新创造力基准进行评分。

该基准涵盖 78 个数据集，包括叙事、幽默和比喻语言，通过标准化为 HELM 的代理工具进行评估。
对 83 个 LLM 进行的因子分析恢复了一个单一的创造力因素 'c'，解释了 81.5% 的方差，它与一般智力相关但可分离。
提示模型“发挥创造力”比启用推理更能显著提升性能，证实该基准跟踪的是创造力而非一般能力。
在与人类匹配的子集上，顶级人类在创造力任务中仍然优于顶级 LLM。

此次发布提供了用于大规模衡量 AI 创造力的开放基础设施，提供了关于 AI 创造力如何与人类能力和一般智力进行比较的见解。