एक उपयोगकर्ता ने रिपोर्ट किया है कि 3-क्लास ऑडियो वर्गीकरण के लिए wav2vec2-base या wavlm-base-plus का फाइन-ट्यून करने पर केवल 33% सटीकता प्राप्त होती है, जो संयोग स्तरों के बराबर है। मॉडल को केवल वर्गीकरण हेड को अपडेट करके प्रशिक्षित किया जाता है, बिना एटेंशन मास्क्स के 1.0s अवधि वाले पैडेड क्लिप्स का उपयोग करते हुए, और 1e-3 की लर्निंग रेट के साथ, जिससे कक्षा असंतुलन और छोटे इनपुट क्लिप्स के बावजूद खराब प्रदर्शन होता है।
Wav2vec2 और WavLM ऑडियो क्लासिफायर 33% सटीकता पर फंसा हुआ
अनुवादित English → हिन्दी