AGC-Bench apresenta benchmark unificado e AGC-Judge para medir criatividade geral artificial

Pesquisadores apresentam o AGC-Bench, um benchmark unificado para criatividade geral artificial construído a partir de 3.101 artigos selecionados e cobrindo 78 conjuntos de dados em domínios como brainstorming e STEM. Para abordar o viés na avaliação automatizada, a equipe ajusta o Qwen3-30B em classificações corrigidas por viés para criar o AGC-Judge, um modelo de peso aberto que pontua robustamente novos benchmarks de criatividade.

O benchmark abrange 78 conjuntos de dados incluindo narrativa, humor e linguagem figurada, avaliados por meio de uma estrutura agêntica padronizada para HELM.
A análise fatorial em 83 LLMs recupera um único fator de criatividade 'c' que explica 81.5% da variância, relacionado mas separável da inteligência geral.
Instruir modelos a "serem criativos" aumenta o desempenho significativamente mais do que habilitar o raciocínio, confirmando que o benchmark rastreia a criatividade sobre a capacidade geral.
Em um subconjunto correspondente a humanos, os melhores humanos ainda superam as melhores LLMs em tarefas de criatividade.

O lançamento fornece infraestrutura aberta para medir a criatividade da IA em escala, oferecendo insights sobre como a criatividade da IA se compara às capacidades humanas e à inteligência geral.