用户报告称,对 wav2vec2-base 或 wavlm-base-plus 进行微调以进行 3 类音频分类时,仅达到 33% 的准确率,与随机猜测水平相当。该模型仅更新分类头,使用长度为 1.0 秒的填充片段且无注意力掩码,学习率为 1e-3,尽管存在类别不平衡和输入片段较短的问题,但性能仍然不佳。