AGC-Bench introduit un benchmark unifié et AGC-Judge pour mesurer la créativité générale artificielle

Les chercheurs présentent AGC-Bench, un benchmark unifié pour la créativité générale artificielle construit à partir de 3 101 articles filtrés et couvrant 78 jeux de données dans des domaines tels que le brainstorming et les STEM. Pour pallier les biais de l'évaluation automatisée, l'équipe a affiné Qwen3-30B sur des notes corrigées des biais afin de créer AGC-Judge, un modèle à poids ouverts qui évalue robustement les nouveaux benchmarks de créativité.

Le benchmark s'étend sur 78 jeux de données incluant le récit, l'humour et le langage figuré, évalués via un harnais agentique standardisé selon HELM.
L'analyse factorielle sur 83 LLMs révèle un seul facteur de créativité 'c' expliquant 81,5 % de la variance, qui est lié mais séparable de l'intelligence générale.
Le fait d'inviter les modèles à « être créatifs » améliore considérablement les performances, bien plus que l'activation du raisonnement, confirmant que le benchmark mesure la créativité plutôt que la capacité générale.
Sur un sous-ensemble apparié avec des humains, les meilleurs humains surpassent toujours les meilleurs LLMs dans les tâches de créativité.

Cette publication fournit une infrastructure ouverte pour mesurer la créativité de l'IA à grande échelle, offrant des perspectives sur la manière dont la créativité de l'IA se compare aux capacités humaines et à l'intelligence générale.