Был представлен новый лидерборд для измерения соответствия больших языковых моделей человеческим предпочтениям в юморе, что устраняет пробел в текущих бенчмарках, которые в основном оптимизированы для рассуждений, программирования и математики.
- Инициатива ориентирована на пользователей, которые взаимодействуют с ИИ ради развлечения, общения, творчества и досуга, а не для решения технических задач.
- Предлагается отслеживать «заставлять людей улыбаться» как значимую метрику бенчмарка.
- Лидерборд размещен на Hugging Face Spaces под названием LLM Humor Ranking Leaderboard.
Эта работа направлена на оценку того, должно ли соответствие юмору стать стандартной метрикой для оценки того, насколько хорошо модели удовлетворяют потребности обычных пользователей за пределами технических показателей.