Los autores presentan SocialPersona, un benchmark diseñado para evaluar si los modelos de lenguaje grandes multimodales (MLLMs) pueden recuperar preferencias reveladas a partir de cronologías longitudinales de redes sociales y utilizarlas en diálogos. Este trabajo aborda la limitación de las evaluaciones actuales que se centran únicamente en la memoria explícita, probando la capacidad del modelo para inferir intereses a partir de rastros multimodales naturales.

  • Construido a partir de cronologías longitudinales de 171 usuarios cotidianos no promocionales de redes sociales.
  • Contiene texto, imágenes, marcas de tiempo y 2.597 etiquetas de preferencia verificadas por humanos en siete dominios de interés.
  • Separa intereses estables de intereses recientes para probar el razonamiento temporal.
  • Soporta dos tareas: construir perfiles de usuario estructurados y generar respuestas alineadas con los perfiles inferidos.
  • Los experimentos muestran que los modelos identifican bien los dominios amplios, pero tienen dificultades con intereses finos y recientes, así como con la personalización del diálogo.

Los resultados indican que la modelización robusta de usuarios a través de múltiples modalidades y en horizontes largos sigue siendo un desafío clave, y SocialPersona puede ayudar a medir el progreso hacia asistentes que infieren y actúan sobre preferencias reveladas.