Para peneliti memperkenalkan AGC-Bench, sebuah benchmark terpadu untuk kreativitas umum buatan yang dibangun dari 3.101 makalah yang disaring dan mencakup 78 dataset di berbagai domain seperti brainstorming dan STEM. Untuk mengatasi bias dalam evaluasi otomatis, tim melakukan fine-tuning Qwen3-30B pada rating yang dikoreksi bias untuk membuat AGC-Judge, model bobot terbuka yang secara robust menilai benchmark kreativitas baru.
- Benchmark ini mencakup 78 dataset termasuk narasi, humor, dan bahasa figuratif, dievaluasi melalui harness agentic yang distandarisasi ke HELM.
- Analisis faktor pada 83 LLM memulihkan satu faktor kreativitas 'c' yang menjelaskan 81,5% varians, yang terkait tetapi terpisah dari kecerdasan umum.
- Meminta model untuk "berkreativitas" meningkatkan kinerja secara signifikan lebih besar daripada mengaktifkan penalaran, mengonfirmasi bahwa benchmark melacak kreativitas dibandingkan kemampuan umum.
- Pada subset yang dicocokkan dengan manusia, manusia teratas masih unggul dalam tugas kreativitas dibandingkan LLM teratas.
Rilis ini menyediakan infrastruktur terbuka untuk mengukur kreativitas AI secara skala besar, memberikan wawasan tentang bagaimana kreativitas AI dibandingkan dengan kemampuan manusia dan kecerdasan umum.