한 연구는 boltuix/emotions 데이터셋에서 계층화된 1,000문 샘플을 사용하여 제로샷 세밀 감정 분류 작업에서 세 가지 상용 대규모 언어 모델(Claude (claude-sonnet-4-6), ChatGPT (GPT-5.4), Gemini (gemini-2.5-flash))을 평가했습니다.
- Gemini는 최고 정확도(39.9%)와 매크로-F1 점수(0.363)를 달성했습니다.
- ChatGPT는 정확도 38.8%와 매크로-F1 0.291로 뒤를 이었습니다.
- Claude는 정확도 38.0%를 기록했지만 매크로-F1이 0.159로 현저히 낮아 클래스 불균형 예측 편향을 나타냈습니다.
- 모든 모델은 아이러니와 욕망에서는 뛰어나지만 사랑, 혼란, 수치심에서는 일관되게 실패했습니다.
- McNemar 검정 결과 통계적으로 유의미한 쌍간 차이가 없었으며(p > 0.10), 이는 공유된 제로샷 상한선에 수렴하고 있음을 시사합니다.
이러한 발견은 최첨단 AI 시스템이 제로샷 세밀 감정 분류를 수행하는 데 있어 현재 한계를 드러냅니다.