PIVOTSBench es el primer benchmark que evalúa la capacidad de los modelos de lenguaje multimodales grandes (MLLMs) para razonar sobre relaciones interpersonales bidireccionales utilizando Social-IQ 2.0 y datos de YouTube. Incluye tareas auxiliares para evaluar la identificación de pistas visuales y realiza estudios de ablación sobre modalidades visuales e información de roles sociales, analizando cómo las predicciones conjuntas y por pares mejoran el rendimiento en dimensiones relacionales fundamentadas en investigaciones psicológicas.