Seorang pengguna melaporkan bahwa fine-tuning wav2vec2-base atau wavlm-base-plus untuk klasifikasi audio 3 kelas hanya mencapai akurasi 33%, sesuai dengan tingkat kebetulan. Model dilatih hanya dengan memperbarui kepala klasifikasi, menggunakan klip yang diisi (padded) dengan durasi 1,0 detik tanpa mask perhatian, dan dengan learning rate 1e-3, yang menyebabkan kinerja buruk meskipun ada ketidakseimbangan kelas dan klip input yang pendek.