Les chercheurs présentent AGC-Bench, un benchmark unifié pour la créativité générale artificielle construit à partir de 3 101 articles filtrés et couvrant 78 jeux de données dans des domaines tels que le brainstorming et les STEM. Pour pallier les biais de l'évaluation automatisée, l'équipe a affiné Qwen3-30B sur des notes corrigées des biais afin de créer AGC-Judge, un modèle à poids ouverts qui évalue robustement les nouveaux benchmarks de créativité.
- Le benchmark s'étend sur 78 jeux de données incluant le récit, l'humour et le langage figuré, évalués via un harnais agentique standardisé selon HELM.
- L'analyse factorielle sur 83 LLMs révèle un seul facteur de créativité 'c' expliquant 81,5 % de la variance, qui est lié mais séparable de l'intelligence générale.
- Le fait d'inviter les modèles à « être créatifs » améliore considérablement les performances, bien plus que l'activation du raisonnement, confirmant que le benchmark mesure la créativité plutôt que la capacité générale.
- Sur un sous-ensemble apparié avec des humains, les meilleurs humains surpassent toujours les meilleurs LLMs dans les tâches de créativité.
Cette publication fournit une infrastructure ouverte pour mesurer la créativité de l'IA à grande échelle, offrant des perspectives sur la manière dont la créativité de l'IA se compare aux capacités humaines et à l'intelligence générale.