Пользователь сообщает, что настройка wav2vec2-base или wavlm-base-plus для классификации аудио на 3 класса достигает лишь 33% точности, что соответствует уровню случайности. Модель обучалась с обновлением только заголовка классификации, с использованием заполненных кусков длительностью 1,0 секунды без масок внимания, и с коэффициентом обучения 1e-3, что приводит к плохим результатам, несмотря на несбалансированность классов и короткие входные куски.