AGC-Bench presenta un benchmark unificado y AGC-Judge para medir la creatividad general artificial

Los investigadores presentan AGC-Bench, un benchmark unificado para la creatividad general artificial construido a partir de 3.101 artículos seleccionados y que cubre 78 conjuntos de datos en dominios como lluvia de ideas y STEM. Para abordar el sesgo en la evaluación automatizada, el equipo ajusta Qwen3-30B en calificaciones corregidas por sesgo para crear AGC-Judge, un modelo de peso abierto que puntúa robustamente nuevos benchmarks de creatividad.

El benchmark abarca 78 conjuntos de datos incluyendo narrativa, humor y lenguaje figurado, evaluados mediante un arnés agéntico estandarizado a HELM.
El análisis factorial en 83 LLMs recupera un único factor de creatividad 'c' que explica el 81.5% de la varianza, relacionado pero separable de la inteligencia general.
Inducir a los modelos a "ser creativos" mejora el rendimiento significativamente más que habilitar el razonamiento, confirmando que el benchmark rastrea la creatividad sobre la capacidad general.
En un subconjunto emparejado con humanos, los mejores humanos aún superan a las mejores LLMs en tareas de creatividad.

El lanzamiento proporciona infraestructura abierta para medir la creatividad de la IA a escala, ofreciendo perspectivas sobre cómo la creatividad de la IA se compara con las capacidades humanas y la inteligencia general.