يبلغ مستخدم أن ضبط wav2vec2-base أو wavlm-base-plus الدقيق لتصنيف الصوت في 3 فئات يحقق فقط دقة 33%، وهو ما يتطابق مع مستويات الصدفة. يتم تدريب النموذج عن طريق تحديث رأس التصنيف فقط، باستخدام مقاطع مُوسَّعة (padded) مدتها 1.0 ثانية دون أقنعة انتباه، ومعدل تعلّم قدره 1e-3، مما يؤدي إلى أداء ضعيف رغم عدم توازن الفئات وقصر مقاطع الإدخال.
مصنّف الصوت Wav2vec2 وWavLM عالق عند دقة 33%
مُترجم من English → العربية