Young25がHugging FaceにLLMのユーモアランキングリーダーボードを公開

大規模言語モデルが人間のユーモアの好みとどのように整合しているかを測定するための新しいリーダーボードが登場しました。これは、現在のベンチマークが推論、コーディング、数学の最適化に主に焦点を当てているというギャップに対応するものです。

この取り組みは、ユーモアの整合性が、技術的なパフォーマンスを超えてモデルが一般的なユーザーのニーズにどのように対応しているかを評価するための標準的な指標となるべきかどうかを評価することを目指しています。