一项研究使用来自 boltuix/emotions 数据集的 1,000 句分层抽样,对三个商业大型语言模型——Claude (claude-sonnet-4-6)、ChatGPT (GPT-5.4) 和 Gemini (gemini-2.5-flash) ——在零样本细粒度情感分类任务上进行了评估。
- Gemini 取得了最高的准确率(39.9%)和宏 F1 分数(0.363)。
- ChatGPT 紧随其后,准确率为 38.8%,宏 F1 为 0.291。
- Claude 的准确率为 38.0%,但宏 F1 显著较低,仅为 0.159,表明存在类别不平衡预测偏差。
- 所有模型在讽刺和欲望方面表现出色,但在爱、困惑和羞耻方面 consistently 失败。
- McNemar 检验显示没有统计学上显著的成对差异(p > 0.10),这表明在共享的零样本上限处收敛。
这些发现突显了前沿 AI 系统在执行零样本细粒度情感分类方面的当前局限性。