Clasificador de audio Wav2vec2 y WavLM se queda atascado en 33% de precisión
Un usuario informa que el ajuste fino de wav2vec2-base o wavlm-base-plus para la clasificación de audio de 3 clases logra solo un 33% de precisión, igualando los niveles de azar. El modelo se entrena actualizando únicamente la cabeza de clasificación, utilizando clips rellenos de 1.0s de duración sin máscaras de atención, y con una tasa de aprendizaje de 1e-3, lo que lleva a un rendimiento deficiente a pesar del desequilibrio de clases y los clips de entrada cortos.