Авторы представляют SocialPersona, бенчмарк, предназначенный для оценки способности мультимодальных больших языковых моделей (MLLM) восстанавливать выявленные предпочтения из лонгитюдных временных линий в социальных сетях и использовать их в диалоге. Эта работа устраняет ограничение текущих оценок, которые фокусируются только на явной памяти, проверяя способность модели выводить интересы из естественных мультимодальных следов.
- Создан на основе лонгитюдных временных линий 171 обычного пользователя социальных сетей, не занимающегося продвижением.
- Содержит текст, изображения, временные метки и 2 597 проверенных человеком тегов предпочтений по семи областям интересов.
- Разделяет стабильные интересы от недавних для проверки темпорального рассуждения.
- Поддерживает две задачи: построение структурированных профилей пользователей и генерацию ответов, согласованных с выведенными профилями.
- Эксперименты показывают, что модели хорошо определяют широкие домены, но испытывают трудности с тонкозернистыми недавними интересами и персонализацией диалога.
Результаты указывают на то, что надежное кросс-модельное долгосрочное моделирование пользователей остается ключевой проблемой, и SocialPersona может помочь измерить прогресс в направлении создания ассистентов, которые выводят и действуют на основе выявленных предпочтений.