Evaluasi zero-shot menunjukkan Gemini memimpin LLM pada taksonomi emosi 13 kelas

Sebuah studi mengevaluasi tiga model bahasa besar komersial—Claude (claude-sonnet-4-6), ChatGPT (GPT-5.4), dan Gemini (gemini-2.5-flash)—pada tugas klasifikasi emosi halus zero-shot menggunakan sampel 1.000 kalimat terstratifikasi dari dataset boltuix/emotions.

Gemini mencapai akurasi tertinggi (39,9%) dan skor macro-F1 (0,363).
ChatGPT menyusul dengan akurasi 38,8% dan macro-F1 0,291.
Claude mencetak akurasi 38,0% tetapi memiliki macro-F1 yang jauh lebih rendah sebesar 0,159, mengindikasikan bias prediksi ketidakseimbangan kelas.
Semua model unggul dalam sarkasme dan keinginan tetapi secara konsisten gagal pada cinta, kebingungan, dan malu.
Uji McNemar mengungkapkan tidak ada perbedaan berpasangan yang signifikan secara statistik (p > 0,10), menunjukkan konvergensi pada batas atas zero-shot bersama.

Temuan ini menyoroti keterbatasan saat ini sistem AI terdepan dalam melakukan klasifikasi emosi halus zero-shot.