قامت دراسة بتقييم ثلاثة نماذج لغوية كبيرة تجارية - Claude (claude-sonnet-4-6)، وChatGPT (GPT-5.4)، وGemini (gemini-2.5-flash) - في مهمة تصنيف المشاعر الدقيقة بـ zero-shot باستخدام عينة موزعة طبقيًا مكونة من 1,000 جملة من مجموعة بيانات boltuix/emotions.
- حقق Gemini أعلى دقة (39.9%) وأعلى درجة macro-F1 (0.363).
- جاء ChatGPT في المرتبة الثانية بدقة 38.8% وmacro-F1 قدره 0.291.
- سجل Claude دقة بنسبة 38.0% ولكن بدرجة macro-F1 أقل بكثير تبلغ 0.159، مما يشير إلى تحيز في التنبؤ ناتج عن عدم توازن الفئات.
- تفوقت جميع النماذج في السخرية والرغبة لكنها فشلت بشكل متسق في الحب والارتباك والخجل.
- أظهرت اختبارات McNemar عدم وجود فروق زوجية ذات دلالة إحصائية (p > 0.10)، مما يشير إلى التقارب عند سقف مشترك لـ zero-shot.
تسلط هذه النتائج الضوء على القيود الحالية لأنظمة الذكاء الاصطناعي المتطورة في أداء تصنيف المشاعر الدقيقة بـ zero-shot.