あるユーザーは、wav2vec2-base または wavlm-base-plus を3クラス音声分類用にファインチューニングしたところ、偶然レベルと同等の33%の精度しか達成できなかったと報告しています。モデルは分類ヘッドのみを更新してトレーニングされ、アテンションマスクなしで1.0秒間のパディング済みクリップを使用し、学習率は1e-3です。クラス不均衡や短い入力クリップにもかかわらず、パフォーマンスが低下しています。
Wav2vec2 および WavLM オーディオ分類器が33%の精度で停止
翻訳元 English → 日本語