शोधकर्ताओं ने DramaSR-532K पेश किया, जो 900 से अधिक पात्रों के लिए 532K अंकित संवाद पंक्तियों वाला एक बड़े पैमाने पर बेंचमार्क है, और लंबे टेलीविजन नाटकों में वक्ता पहचान को बढ़ाने के लिए DramaSR-LRM का प्रस्ताव दिया।
- DramaSR-532K बेंचमार्क जटिल पात्र निर्धारण के लिए श्रव्य, भाषाई और दृश्य संकेतों को एकीकृत करता है।
- DramaSR-LRM बहुआयामी उपकरण उपयोग के साथ एक बड़े तर्क मॉडल (LRM) का उपयोग करके संदर्भ प्रमाण को स्वतंत्र रूप से संचित करता है।
- यह दृष्टिकोण मौजूदा बेसलाइन से काफी बेहतर प्रदर्शन करता है, विशेष रूप से छोटे उच्चारणों पर जहां ध्वनिक बायोमेट्रिक्स अविश्वसनीय होते हैं।
यह कार्य चुनौतीपूर्ण लंबे-फॉर्म सामग्री में उच्च-फिडेलिटी वक्ता निर्धारण को सक्षम बनाकर व्यापक वीडियो समझ को आगे बढ़ाता है।