PIVOTSBench — первый бенчмарк, оценивающий способность мультимодальных больших языковых моделей рассуждать о взаимосвязанных межличностных отношениях с использованием Social-IQ 2.0 и данных YouTube. В нём включены вспомогательные задачи для оценки распознавания визуальных сигналов и проводятся исследования вырезания по визуальным модальностям и социальным ролям, анализирующие, как совместные и парные прогнозы улучшают результаты по измерениям межличностных отношений, основанным на психологических исследованиях.
PIVOTSBench: бенчмарк для детального рассуждения о межличностных отношениях в МЛЛМ
Переведено с English → Русский