Исследователи представляют AGC-Bench, единый бенчмарк для оценки искусственного общего творчества, созданный на основе 3101 отобранных статей и охватывающий 78 наборов данных в таких областях, как мозговой штурм и STEM. Чтобы устранить предвзятость автоматической оценки, команда дообучает Qwen3-30B на скорректированных по предвзятости оценках, чтобы создать AGC-Judge — модель с открытым весом, которая надежно оценивает новые бенчмарки творчества.
- Бенчмарк охватывает 78 наборов данных, включая нарративы, юмор и образный язык, оцениваемые через агентный фреймворк, стандартизированный под HELM.
- Факторный анализ по 83 LLM выявляет единый фактор творчества 'c', объясняющий 81.5% дисперсии, который связан с общим интеллектом, но отделяем от него.
- Промптинг моделей на «быть творческими» значительно больше повышает производительность, чем включение рассуждений, что подтверждает, что бенчмарк отслеживает именно творчество, а не общие способности.
- На подмножестве с человеческим сопоставлением лучшие люди все еще превосходят лучшие LLM в задачах на творчество.
Выпуск предоставляет открытую инфраструктуру для масштабного измерения творчества ИИ, предлагая понимание того, как творчество ИИ сравнивается с человеческими возможностями и общим интеллектом.