Авторы предлагают новый подход к обучению сквозных систем автоматического распознавания речи (ASR), который решает проблемы зашумленных меток и отсутствия специфичности для домена в крупномасштабных слабо контролируемых наборах данных. Метод включает предварительное обучение на полном наборе данных, продолжение предварительного обучения на отфильтрованном подмножестве на основе ошибки распознавания по символам (CER) и тонкую настройку на акустически близких образцах из этого подмножества.
- Подход состоит из трех шагов: предварительное обучение на всем наборе данных, продолжение предварительного обучения на отфильтрованном подмножестве на основе ошибки распознавания по символам (CER) и тонкая настройка на небольшом числе образцов, акустически близких к целевому домену.
- Эксперименты с 90-тысячечасовым слабо контролируемым японским набором данных показали, что фильтрация снижает CER до 6.4%.
- Метод отбора дополнительно снижает CER до 4.0%, при этом оба этапа повторно используют обучающие образцы из начальной фазы предварительного обучения.
Этот метод позволяет более эффективно использовать слабо контролируемые наборы данных за счет синергетического снижения ошибки распознавания по символам благодаря целенаправленной фильтрации и отбору.