एक अध्ययन ने बोल्टुइक्स/इमोशंस डेटासेट से एक स्ट्रेटिफाइड 1,000-वाक्य नमूने का उपयोग करते हुए जीरो-शॉट फाइन-ग्रेन्डेड भावना वर्गीकरण कार्य पर तीन वाणिज्यिक बड़े भाषा मॉडल — क्लोड (क्लाउड-सोनेट-4-6), चैटजीपीटी (जीपीटी-5.4) और जीमिनी (जेमीनी-2.5-फ्लैश) का मूल्यांकन किया।

  • जीमिनी ने उच्चतम सटीकता (39.9%) और मैक्रो-F1 स्कोर (0.363) हासिल किया।
  • चैटजीपीटी 38.8% सटीकता और 0.291 का मैक्रो-F1 के साथ आगे था।
  • क्लोड ने 38.0% सटीकता प्राप्त की, लेकिन इसका मैक्रो-F1 काफी कम 0.159 था, जो क्लास-अनबैलेंस प्रेडिक्शन बायस को दर्शाता है।
  • सभी मॉडल सायरकैज़म और इच्छा में उत्कृष्ट थे, लेकिन प्यार, भ्रम और शर्म पर लगातार विफल रहे।
  • मैकनेमार टेस्ट ने कोई सांख्यिकीय रूप से महत्वपूर्ण पेयरवाइस अंतर नहीं दिखाया (p > 0.10), जो एक साझा जीरो-शॉट छत पर अभिसरण का सुझाव देता है।

ये निष्कर्ष जीरो-शॉट फाइन-ग्रेन्डेड भावना वर्गीकरण करते समय फ्रंटियर एआई सिस्टम की वर्तमान सीमाओं को उजागर करते हैं।