用户报告称,对 wav2vec2-base 或 wavlm-base-plus 进行微调以进行 3 类音频分类时,仅达到 33% 的准确率,与随机猜测水平相当。该模型仅更新分类头,使用长度为 1.0 秒的填充片段且无注意力掩码,学习率为 1e-3,尽管存在类别不平衡和输入片段较短的问题,但性能仍然不佳。
Wav2vec2 和 WavLM 音频分类器卡在 33% 准确率
译自 English → 中文
用户报告称,对 wav2vec2-base 或 wavlm-base-plus 进行微调以进行 3 类音频分类时,仅达到 33% 的准确率,与随机猜测水平相当。该模型仅更新分类头,使用长度为 1.0 秒的填充片段且无注意力掩码,学习率为 1e-3,尽管存在类别不平衡和输入片段较短的问题,但性能仍然不佳。