قامت دراسة بتقييم ثلاثة نماذج لغوية كبيرة تجارية - Claude (claude-sonnet-4-6)، وChatGPT (GPT-5.4)، وGemini (gemini-2.5-flash) - في مهمة تصنيف المشاعر الدقيقة بـ zero-shot باستخدام عينة موزعة طبقيًا مكونة من 1,000 جملة من مجموعة بيانات boltuix/emotions.

  • حقق Gemini أعلى دقة (39.9%) وأعلى درجة macro-F1 (0.363).
  • جاء ChatGPT في المرتبة الثانية بدقة 38.8% وmacro-F1 قدره 0.291.
  • سجل Claude دقة بنسبة 38.0% ولكن بدرجة macro-F1 أقل بكثير تبلغ 0.159، مما يشير إلى تحيز في التنبؤ ناتج عن عدم توازن الفئات.
  • تفوقت جميع النماذج في السخرية والرغبة لكنها فشلت بشكل متسق في الحب والارتباك والخجل.
  • أظهرت اختبارات McNemar عدم وجود فروق زوجية ذات دلالة إحصائية (p > 0.10)، مما يشير إلى التقارب عند سقف مشترك لـ zero-shot.

تسلط هذه النتائج الضوء على القيود الحالية لأنظمة الذكاء الاصطناعي المتطورة في أداء تصنيف المشاعر الدقيقة بـ zero-shot.