Mejora de la verificación de hablante para vocalizaciones no verbales

Un nuevo marco combina características congeladas de Data2Vec con ECAPA-TDNN y un módulo de Mezcla de Expertos para mejorar la verificación del hablante en vocalizaciones no verbales. Utiliza destilación condicional y pérdida contrastiva para mantener la precisión del habla mientras reduce el EER de speech-NVV de 38,93% a 22,66% y mejora el EER del habla de 13,17% a 9,24%.