대규모 언어 모델이 인간의 유머 선호도와 얼마나 일치하는지를 측정하기 위한 새로운 리더보드가 도입되었습니다. 이는 현재 벤치마크들이 추론, 코딩 및 수학 최적화에 주로 집중함으로써 존재하던 격차를 해소합니다.
- 이取り組み는 기술적 작업보다는 즐거움, 교감, 창의성 및 엔터테인먼트를 위해 AI와 상호작용하는 사용자를 대상으로 합니다.
- "사람들을 미소 짓게 만드는 것"을 의미 있는 벤치마크 지표로 추적할 것을 제안합니다.
- 리더보드는 LLM Humor Ranking Leaderboard라는 이름으로 허깅페이스 스페이스에 호스팅되어 있습니다.
이 노력은 유머 정렬이 기술적 성능을 넘어 일반 사용자의 요구를 얼마나 잘 충족시키는지를 평가하는 표준 지표가 되어야 하는지 여부를 평가하는 것을 목표로 합니다.