一项新的排行榜已推出,用于衡量大型语言模型与人类幽默偏好的对齐程度,解决了当前基准测试主要优化推理、编码和数学的问题。

  • 该倡议针对那些为了娱乐、陪伴、创造力和消遣而与AI互动的用户,而非技术任务。
  • 它提出将“让人微笑”作为有意义的基准指标进行追踪。
  • 该排行榜托管在Hugging Face Spaces上,名称为LLM Humor Ranking Leaderboard。

这项努力旨在评估幽默对齐是否应成为评估模型在技术指标之外满足普通用户需求的标准指标。