PIVOTSBench: Benchmark para el razonamiento interpersonal fino en MLLMs

PIVOTSBench es el primer benchmark que evalúa la capacidad de los modelos de lenguaje multimodales grandes (MLLMs) para razonar sobre relaciones interpersonales bidireccionales utilizando Social-IQ 2.0 y datos de YouTube. Incluye tareas auxiliares para evaluar la identificación de pistas visuales y realiza estudios de ablación sobre modalidades visuales e información de roles sociales, analizando cómo las predicciones conjuntas y por pares mejoran el rendimiento en dimensiones relacionales fundamentadas en investigaciones psicológicas.