零样本评估显示 Gemini 在 13 类情感分类法中领先于其他 LLM

一项研究使用来自 boltuix/emotions 数据集的 1,000 句分层抽样，对三个商业大型语言模型——Claude (claude-sonnet-4-6)、ChatGPT (GPT-5.4) 和 Gemini (gemini-2.5-flash) ——在零样本细粒度情感分类任务上进行了评估。

Gemini 取得了最高的准确率（39.9%）和宏 F1 分数（0.363）。
ChatGPT 紧随其后，准确率为 38.8%，宏 F1 为 0.291。
Claude 的准确率为 38.0%，但宏 F1 显著较低，仅为 0.159，表明存在类别不平衡预测偏差。
所有模型在讽刺和欲望方面表现出色，但在爱、困惑和羞耻方面 consistently 失败。
McNemar 检验显示没有统计学上显著的成对差异（p > 0.10），这表明在共享的零样本上限处收敛。

这些发现突显了前沿 AI 系统在执行零样本细粒度情感分类方面的当前局限性。