Los investigadores presentan AGC-Bench, un benchmark unificado para la creatividad general artificial construido a partir de 3.101 artículos seleccionados y que cubre 78 conjuntos de datos en dominios como lluvia de ideas y STEM. Para abordar el sesgo en la evaluación automatizada, el equipo ajusta Qwen3-30B en calificaciones corregidas por sesgo para crear AGC-Judge, un modelo de peso abierto que puntúa robustamente nuevos benchmarks de creatividad.

  • El benchmark abarca 78 conjuntos de datos incluyendo narrativa, humor y lenguaje figurado, evaluados mediante un arnés agéntico estandarizado a HELM.
  • El análisis factorial en 83 LLMs recupera un único factor de creatividad 'c' que explica el 81.5% de la varianza, relacionado pero separable de la inteligencia general.
  • Inducir a los modelos a "ser creativos" mejora el rendimiento significativamente más que habilitar el razonamiento, confirmando que el benchmark rastrea la creatividad sobre la capacidad general.
  • En un subconjunto emparejado con humanos, los mejores humanos aún superan a las mejores LLMs en tareas de creatividad.

El lanzamiento proporciona infraestructura abierta para medir la creatividad de la IA a escala, ofreciendo perspectivas sobre cómo la creatividad de la IA se compara con las capacidades humanas y la inteligencia general.