Авторы представляют SocialPersona, бенчмарк, предназначенный для оценки способности мультимодальных больших языковых моделей (MLLM) восстанавливать выявленные предпочтения из лонгитюдных временных линий в социальных сетях и использовать их в диалоге. Эта работа устраняет ограничение текущих оценок, которые фокусируются только на явной памяти, проверяя способность модели выводить интересы из естественных мультимодальных следов.

  • Создан на основе лонгитюдных временных линий 171 обычного пользователя социальных сетей, не занимающегося продвижением.
  • Содержит текст, изображения, временные метки и 2 597 проверенных человеком тегов предпочтений по семи областям интересов.
  • Разделяет стабильные интересы от недавних для проверки темпорального рассуждения.
  • Поддерживает две задачи: построение структурированных профилей пользователей и генерацию ответов, согласованных с выведенными профилями.
  • Эксперименты показывают, что модели хорошо определяют широкие домены, но испытывают трудности с тонкозернистыми недавними интересами и персонализацией диалога.

Результаты указывают на то, что надежное кросс-модельное долгосрочное моделирование пользователей остается ключевой проблемой, и SocialPersona может помочь измерить прогресс в направлении создания ассистентов, которые выводят и действуют на основе выявленных предпочтений.