Um novo ranking foi introduzido para medir o alinhamento dos grandes modelos de linguagem com as preferências humanas de humor, abordando a lacuna nos benchmarks atuais que otimizam principalmente raciocínio, codificação e matemática.

  • A iniciativa visa usuários que interagem com IA por diversão, companhia, criatividade e entretenimento, em vez de tarefas técnicas.
  • Propõe rastrear "fazer as pessoas sorrirem" como uma métrica significativa do benchmark.
  • O ranking está hospedado no Hugging Face Spaces sob o nome LLM Humor Ranking Leaderboard.

Este esforço visa avaliar se o alinhamento com o humor deve se tornar uma métrica padrão para avaliar quão bem os modelos atendem às necessidades gerais dos usuários além do desempenho técnico.