Un utilisateur signale que le fine-tuning de wav2vec2-base ou wavlm-base-plus pour la classification audio en 3 classes n'atteint que 33 % de précision, correspondant aux niveaux du hasard. Le modèle est entraîné avec uniquement la tête de classification mise à jour, en utilisant des clips rembourrés d'une durée de 1,0 s sans masques d'attention, et avec un taux d'apprentissage de 1e-3, ce qui entraîne de mauvaises performances malgré le déséquilibre des classes et la brièveté des clips d'entrée.