大規模言語モデルが人間のユーモアの好みとどのように整合しているかを測定するための新しいリーダーボードが登場しました。これは、現在のベンチマークが推論、コーディング、数学の最適化に主に焦点を当てているというギャップに対応するものです。

  • この取り組みは、技術的なタスクではなく、楽しみ、伴侶、創造性、娯楽のためにAIと対話するユーザーを対象としています。
  • 「人々を笑顔にする」ことを意味のあるベンチマーク指標として追跡することを提案しています。
  • リーダーボードは「LLM Humor Ranking Leaderboard」という名前でHugging Face Spaces上にホストされています。

この取り組みは、ユーモアの整合性が、技術的なパフォーマンスを超えてモデルが一般的なユーザーのニーズにどのように対応しているかを評価するための標準的な指標となるべきかどうかを評価することを目指しています。