Sebuah studi mengevaluasi tiga model bahasa besar komersial—Claude (claude-sonnet-4-6), ChatGPT (GPT-5.4), dan Gemini (gemini-2.5-flash)—pada tugas klasifikasi emosi halus zero-shot menggunakan sampel 1.000 kalimat terstratifikasi dari dataset boltuix/emotions.
- Gemini mencapai akurasi tertinggi (39,9%) dan skor macro-F1 (0,363).
- ChatGPT menyusul dengan akurasi 38,8% dan macro-F1 0,291.
- Claude mencetak akurasi 38,0% tetapi memiliki macro-F1 yang jauh lebih rendah sebesar 0,159, mengindikasikan bias prediksi ketidakseimbangan kelas.
- Semua model unggul dalam sarkasme dan keinginan tetapi secara konsisten gagal pada cinta, kebingungan, dan malu.
- Uji McNemar mengungkapkan tidak ada perbedaan berpasangan yang signifikan secara statistik (p > 0,10), menunjukkan konvergensi pada batas atas zero-shot bersama.
Temuan ini menyoroti keterbatasan saat ini sistem AI terdepan dalam melakukan klasifikasi emosi halus zero-shot.