ある研究は、boltuix/emotionsデータセットから層化抽出した1,000文のサンプルを用いて、ゼロショットの細粒度感情分類タスクにおいて、3つの商用大規模言語モデル(Claude (claude-sonnet-4-6)、ChatGPT (GPT-5.4)、Gemini (gemini-2.5-flash))を評価した。

  • Geminiは最高精度(39.9%)とマクロF1スコア(0.363)を達成した。
  • ChatGPTは精度38.8%、マクロF1 0.291で続いた。
  • Claudeは精度38.0%だったが、マクロF1が0.159と著しく低く、クラス不均衡による予測バイアスを示唆している。
  • すべてのモデルは皮肉と欲望において優れていたが、愛、混乱、恥に対して一貫して失敗した。
  • McNemar検定により、統計的に有意な対間差は認められず(p > 0.10)、共有されるゼロショットの天井に収束していることが示唆された。

これらの知見は、フロントティアAIシステムがゼロショット細粒度感情分類を遂行する際の現在の限界を浮き彫りにしている。