تقييم Zero-shot يظهر أن Gemini يتصدر نماذج اللغات الكبيرة في تصنيف المشاعر ذو الـ 13 فئة

قامت دراسة بتقييم ثلاثة نماذج لغوية كبيرة تجارية - Claude (claude-sonnet-4-6)، وChatGPT (GPT-5.4)، وGemini (gemini-2.5-flash) - في مهمة تصنيف المشاعر الدقيقة بـ zero-shot باستخدام عينة موزعة طبقيًا مكونة من 1,000 جملة من مجموعة بيانات boltuix/emotions.

حقق Gemini أعلى دقة (39.9%) وأعلى درجة macro-F1 (0.363).
جاء ChatGPT في المرتبة الثانية بدقة 38.8% وmacro-F1 قدره 0.291.
سجل Claude دقة بنسبة 38.0% ولكن بدرجة macro-F1 أقل بكثير تبلغ 0.159، مما يشير إلى تحيز في التنبؤ ناتج عن عدم توازن الفئات.
تفوقت جميع النماذج في السخرية والرغبة لكنها فشلت بشكل متسق في الحب والارتباك والخجل.
أظهرت اختبارات McNemar عدم وجود فروق زوجية ذات دلالة إحصائية (p > 0.10)، مما يشير إلى التقارب عند سقف مشترك لـ zero-shot.

تسلط هذه النتائج الضوء على القيود الحالية لأنظمة الذكاء الاصطناعي المتطورة في أداء تصنيف المشاعر الدقيقة بـ zero-shot.