Sebuah studi mengevaluasi tiga model bahasa besar komersial—Claude (claude-sonnet-4-6), ChatGPT (GPT-5.4), dan Gemini (gemini-2.5-flash)—pada tugas klasifikasi emosi halus zero-shot menggunakan sampel 1.000 kalimat terstratifikasi dari dataset boltuix/emotions.

  • Gemini mencapai akurasi tertinggi (39,9%) dan skor macro-F1 (0,363).
  • ChatGPT menyusul dengan akurasi 38,8% dan macro-F1 0,291.
  • Claude mencetak akurasi 38,0% tetapi memiliki macro-F1 yang jauh lebih rendah sebesar 0,159, mengindikasikan bias prediksi ketidakseimbangan kelas.
  • Semua model unggul dalam sarkasme dan keinginan tetapi secara konsisten gagal pada cinta, kebingungan, dan malu.
  • Uji McNemar mengungkapkan tidak ada perbedaan berpasangan yang signifikan secara statistik (p > 0,10), menunjukkan konvergensi pada batas atas zero-shot bersama.

Temuan ini menyoroti keterbatasan saat ini sistem AI terdepan dalam melakukan klasifikasi emosi halus zero-shot.