media Hugging Face Forums · há 8 d · open_models

Classificador de áudio Wav2vec2 e WavLM travado em 33% de precisão

Traduzido do English → Português (BR)

Um usuário relata que o ajuste fino do wav2vec2-base ou wavlm-base-plus para classificação de áudio de 3 classes alcança apenas 33% de precisão, igualando níveis de acaso. O modelo é treinado atualizando apenas a cabeça de classificação, usando clipes preenchidos com duração de 1,0s sem máscaras de atenção, e com uma taxa de aprendizado de 1e-3, levando a um desempenho ruim apesar do desequilíbrio de classes e clipes de entrada curtos.

Importância 1/3 Confiança 1/3 Hugging Face Forums Code generation Evaluation & benchmarks

Ler original