Um novo ranking foi introduzido para medir o alinhamento dos grandes modelos de linguagem com as preferências humanas de humor, abordando a lacuna nos benchmarks atuais que otimizam principalmente raciocínio, codificação e matemática.
- A iniciativa visa usuários que interagem com IA por diversão, companhia, criatividade e entretenimento, em vez de tarefas técnicas.
- Propõe rastrear "fazer as pessoas sorrirem" como uma métrica significativa do benchmark.
- O ranking está hospedado no Hugging Face Spaces sob o nome LLM Humor Ranking Leaderboard.
Este esforço visa avaliar se o alinhamento com o humor deve se tornar uma métrica padrão para avaliar quão bem os modelos atendem às necessidades gerais dos usuários além do desempenho técnico.