يقدم الباحثون DramaSR-532K، وهو معيار ضخم يحتوي على 532 ألف سطر حوار مُعلّم عبر أكثر من 900 شخصية، ويقترحون DramaSR-LRM لتعزيز التعرف على المتحدث في دراما التلفزيون الطويلة.

  • يدمج معيار DramaSR-532K إشارات سمعية ولغوية وبصرية لنسبة الشخصيات المعقدة.
  • يستخدم DramaSR-LRM نموذج استدلال كبير (LRM) مع استخدام أدوات متعددة الوسائط لتجميع الأدلة السياقية بشكل مستقل.
  • تتفوق هذه الطريقة بشكل ملحوظ على الأسس المرجعية الحالية، خاصة في الجمل القصيرة حيث تكون البيومتريات الصوتية غير موثوقة.

تعمل هذه الدراسة على تقدم الفهم الشامل للفيديو من خلال تمكين نسبة المتحدث بدقة عالية في المحتوى الطويل والمُتحدي.