あるユーザーは、wav2vec2-base または wavlm-base-plus を3クラス音声分類用にファインチューニングしたところ、偶然レベルと同等の33%の精度しか達成できなかったと報告しています。モデルは分類ヘッドのみを更新してトレーニングされ、アテンションマスクなしで1.0秒間のパディング済みクリップを使用し、学習率は1e-3です。クラス不均衡や短い入力クリップにもかかわらず、パフォーマンスが低下しています。