शोधकर्ताओं ने AGC-Bench पेश किया, जो 3,101 स्क्रीन किए गए पेपर से निर्मित कृत्रिम सामान्य रचनात्मकता के लिए एक एकीकृत बेंचमार्क है और ब्रेनस्टॉर्मिंग और STEM जैसे क्षेत्रों में 78 डेटासेट को कवर करता है। स्वचालित मूल्यांकन में पक्षपात को दूर करने के लिए, टीम ने AGC-Judge बनाने के लिए Qwen3-30B को पक्षपात-सुधारे गए रेटिंग्स पर फाइन-ट्यून किया, जो एक ओपन-वेट मॉडल है जो नए रचनात्मकता बेंचमार्क्स को मजबूती से स्कोर करता है।
- बेंचमार्क में कथा, हास्य और रूपक भाषा सहित 78 डेटासेट शामिल हैं, जिनका मूल्यांकन HELM के लिए मानकीकृत एजेंटिक हार्नेस के माध्यम से किया जाता है।
- 83 LLMs पर कारक विश्लेषण एकल रचनात्मकता कारक 'c' को पुनर्प्राप्त करता है जो भिन्नता का 81.5% समझाता है, जो सामान्य बुद्धिमत्ता से संबंधित है लेकिन अलग किया जा सकता है।
- मॉडलों को "रचनात्मक बनने" के लिए प्रॉम्प्टिंग करना तर्क को सक्षम करने की तुलना में काफी अधिक प्रदर्शन में वृद्धि करता है, जो पुष्टि करता है कि बेंचमार्क सामान्य क्षमता के बजाय रचनात्मकता को ट्रैक करता है।
- एक मानव-मैच्ड सबसेट पर, शीर्ष मानुष अभी भी रचनात्मकता कार्यों में शीर्ष LLMs से बेहतर प्रदर्शन करते हैं।
रिलीज़ AI रचनात्मकता को स्केल पर मापने के लिए ओपन इंफ्रास्ट्रक्चर प्रदान करती है, जो यह समझने में सहायक होती है कि AI रचनात्मकता मानवीय क्षमताओं और सामान्य बुद्धिमत्ता से कैसे तुलना करती है।