사용자는 wav2vec2-base 또는 wavlm-base-plus를 3클래스 오디오 분류를 위해 파인튜닝한 결과 우연 수준과 일치하는 33%의 정확도만 달성했다고 보고합니다. 모델은 분류 헤드만 업데이트하고, 어텐션 마스크 없이 길이가 1.0초인 패딩된 클립을 사용하며, 학습률은 1e-3으로 설정되어 클래스 불균형과 짧은 입력 클립에도 불구하고 성능이 낮습니다.