Um usuário relata que o ajuste fino do wav2vec2-base ou wavlm-base-plus para classificação de áudio de 3 classes alcança apenas 33% de precisão, igualando níveis de acaso. O modelo é treinado atualizando apenas a cabeça de classificação, usando clipes preenchidos com duração de 1,0s sem máscaras de atenção, e com uma taxa de aprendizado de 1e-3, levando a um desempenho ruim apesar do desequilíbrio de classes e clipes de entrada curtos.
Classificador de áudio Wav2vec2 e WavLM travado em 33% de precisão
Traduzido do English → Português (BR)