Peneliti memperkenalkan DramaSR-532K, sebuah benchmark skala besar dengan 532K baris dialog beranotasi di lebih dari 900 karakter, dan mengusulkan DramaSR-LRM untuk meningkatkan pengenalan pembicara dalam drama TV panjang.
- Benchmark DramaSR-532K mengintegrasikan isyarat auditori, linguistik, dan visual untuk atribusi karakter yang kompleks.
- DramaSR-LRM memanfaatkan model penalaran besar (LRM) dengan penggunaan alat multimodal untuk secara otonom mengumpulkan bukti kontekstual.
- Pendekatan ini secara signifikan mengungguli baseline yang ada, terutama pada ucapan pendek di mana biometrik akustik tidak dapat diandalkan.
Karya ini memajukan pemahaman video komprehensif dengan memungkinkan atribusi pembicara berketepatan tinggi dalam konten panjang yang menantang.