Se ha introducido un nuevo ranking para medir la alineación de los grandes modelos de lenguaje con las preferencias humanas de humor, abordando la brecha en los benchmarks actuales que principalmente optimizan el razonamiento, la programación y las matemáticas.
- La iniciativa se dirige a usuarios que interactúan con IA por diversión, compañía, creatividad y entretenimiento, en lugar de tareas técnicas.
- Propone rastrear "hacer sonreír a la gente" como una métrica significativa del benchmark.
- El ranking está alojado en Hugging Face Spaces bajo el nombre LLM Humor Ranking Leaderboard.
Este esfuerzo tiene como objetivo evaluar si la alineación con el humor debería convertirse en una métrica estándar para evaluar qué tan bien los modelos satisfacen las necesidades generales de los usuarios más allá del rendimiento técnico.