Young25, 허깅페이스에 LLM 유머 순위 리더보드 공개

대규모 언어 모델이 인간의 유머 선호도와 얼마나 일치하는지를 측정하기 위한 새로운 리더보드가 도입되었습니다. 이는 현재 벤치마크들이 추론, 코딩 및 수학 최적화에 주로 집중함으로써 존재하던 격차를 해소합니다.

이 노력은 유머 정렬이 기술적 성능을 넘어 일반 사용자의 요구를 얼마나 잘 충족시키는지를 평가하는 표준 지표가 되어야 하는지 여부를 평가하는 것을 목표로 합니다.