Sebuah papan peringkat baru telah diperkenalkan untuk mengukur keselarasan model bahasa besar dengan preferensi humor manusia, mengatasi kesenjangan dalam benchmark saat ini yang terutama mengoptimalkan penalaran, pemrograman, dan matematika.
- Inisiatif ini menargetkan pengguna yang berinteraksi dengan AI untuk hiburan, persahabatan, kreativitas, dan penghiburan, bukan tugas teknis.
- Ini mengusulkan pelacakan "membuat orang tersenyum" sebagai metrik benchmark yang bermakna.
- Papan peringkat ini dihosting di Hugging Face Spaces dengan nama LLM Humor Ranking Leaderboard.
Upaya ini bertujuan untuk mengevaluasi apakah keselarasan humor harus menjadi metrik standar untuk menilai seberapa baik model memenuhi kebutuhan pengguna umum di luar kinerja teknis.