يقدم الباحثون AGC-Bench، وهو مقياس موحد للإبداع العام الاصطناعي بُني من 3,101 ورقة بحثية مُرشحة ويغطي 78 مجموعة بيانات عبر مجالات مثل العصف الذهني والعلوم والتكنولوجيا والهندسة والرياضيات (STEM). ولمعالجة التحيز في التقييم الآلي، قام الفريق بضبط Qwen3-30B الدقيق على تقييمات مُصححة من التحيز لإنشاء AGC-Judge، وهو نموذج ذو أوزان مفتوحة يقيّم بشكل قوي مقاييس الإبداع الجديدة.
- يمتد المقياس عبر 78 مجموعة بيانات تشمل السرد والضحك واللغة المجازية، ويُقيَّم عبر إطار عمل وكيلي موحد وفقاً لـ HELM.
- يكشف التحليل العاملي عبر 83 نموذج لغوي كبير (LLM) عن عامل إبداع واحد 'c' يفسر 81.5% من التباين، وهو مرتبط ولكن قابل للفصل عن الذكاء العام.
- يؤدي توجيه النماذج إلى "أن تكون مبدعاً" إلى تحسين الأداء بشكل أكبر بكثير من تمكين الاستدلال، مما يؤكد أن المقياس يتتبع الإبداع بدلاً من القدرة العامة.
- في مجموعة فرعية مُطابقة مع البشر، لا يزال البشر الأفضّل يتفوقون على أفضل النماذج اللغوية الكبيرة (LLMs) في مهام الإبداع.
يوفر هذا الإصدار بنية تحتية مفتوحة لقياس إبداع الذكاء الاصطناعي على نطاق واسع، مما يوفر رؤى حول كيفية مقارنة إبداع الذكاء الاصطناعي بالقدرات البشرية والذكاء العام.