Mejora del ASR débilmente supervisado a gran escala mediante filtrado y selección
Los autores proponen un enfoque de entrenamiento novedoso para el reconocimiento automático del habla (ASR) de extremo a extremo que aborda las etiquetas ruidosas y la falta de especificidad de dominio en conjuntos de datos débilmente supervisados a gran escala. El método implica un preentrenamiento en el conjunto de datos completo, un preentrenamiento continuado en un subconjunto filtrado basado en la tasa de error de caracteres (CER), y un ajuste fino en muestras acústicamente similares de ese subconjunto.