Wav2vec2 और WavLM ऑडियो क्लासिफायर 33% सटीकता पर फंसा हुआ

एक उपयोगकर्ता ने रिपोर्ट किया है कि 3-क्लास ऑडियो वर्गीकरण के लिए wav2vec2-base या wavlm-base-plus का फाइन-ट्यून करने पर केवल 33% सटीकता प्राप्त होती है, जो संयोग स्तरों के बराबर है। मॉडल को केवल वर्गीकरण हेड को अपडेट करके प्रशिक्षित किया जाता है, बिना एटेंशन मास्क्स के 1.0s अवधि वाले पैडेड क्लिप्स का उपयोग करते हुए, और 1e-3 की लर्निंग रेट के साथ, जिससे कक्षा असंतुलन और छोटे इनपुट क्लिप्स के बावजूद खराब प्रदर्शन होता है।