एक उपयोगकर्ता ने रिपोर्ट किया है कि 3-क्लास ऑडियो वर्गीकरण के लिए wav2vec2-base या wavlm-base-plus का फाइन-ट्यून करने पर केवल 33% सटीकता प्राप्त होती है, जो संयोग स्तरों के बराबर है। मॉडल को केवल वर्गीकरण हेड को अपडेट करके प्रशिक्षित किया जाता है, बिना एटेंशन मास्क्स के 1.0s अवधि वाले पैडेड क्लिप्स का उपयोग करते हुए, और 1e-3 की लर्निंग रेट के साथ, जिससे कक्षा असंतुलन और छोटे इनपुट क्लिप्स के बावजूद खराब प्रदर्शन होता है।