研究人员推出了 AGC-Bench,这是一个用于衡量人工通用创造力的统一基准,由 3,101 篇筛选过的论文构建而成,涵盖头脑风暴和 STEM 等领域的 78 个数据集。为了解决自动化评估中的偏见问题,团队在纠正偏见的评分上微调了 Qwen3-30B,创建了 AGC-Judge,这是一个开放权重的模型,能够稳健地对新创造力基准进行评分。
- 该基准涵盖 78 个数据集,包括叙事、幽默和比喻语言,通过标准化为 HELM 的代理工具进行评估。
- 对 83 个 LLM 进行的因子分析恢复了一个单一的创造力因素 'c',解释了 81.5% 的方差,它与一般智力相关但可分离。
- 提示模型“发挥创造力”比启用推理更能显著提升性能,证实该基准跟踪的是创造力而非一般能力。
- 在与人类匹配的子集上,顶级人类在创造力任务中仍然优于顶级 LLM。
此次发布提供了用于大规模衡量 AI 创造力的开放基础设施,提供了关于 AI 创造力如何与人类能力和一般智力进行比较的见解。