تم تقديم لوحة متصدرين جديدة لقياس توافق نماذج اللغات الكبيرة مع تفضيلات البشر للنكت، مما يعالج الفجوة في المعايير الحالية التي تركز بشكل أساسي على الاستدلال والبرمجة والرياضيات.
- يستهدف المشروع المستخدمين الذين يتفاعلون مع الذكاء الاصطناعي للمتعة والرفقة والإبداع والترفيه بدلاً من المهام التقنية.
- يقترح تتبع "إضحاك الناس" كمعيار ذي معنى في التقييم.
- تستضيف لوحة المتصدرين على Hugging Face Spaces تحت اسم LLM Humor Ranking Leaderboard.
يهدف هذا الجهد إلى تقييم ما إذا كان توافق النكت يجب أن يصبح معياراً قياسياً لتقييم مدى قدرة النماذج على تلبية احتياجات المستخدمين العامين بما يتجاوز الأداء التقني.