Mejora del ASR débilmente supervisado a gran escala mediante filtrado y selección

Los autores proponen un enfoque de entrenamiento novedoso para el reconocimiento automático del habla (ASR) de extremo a extremo que aborda las etiquetas ruidosas y la falta de especificidad de dominio en conjuntos de datos débilmente supervisados a gran escala. El método implica un preentrenamiento en el conjunto de datos completo, un preentrenamiento continuado en un subconjunto filtrado basado en la tasa de error de caracteres (CER), y un ajuste fino en muestras acústicamente similares de ese subconjunto.

El enfoque consta de tres pasos: preentrenamiento en todo el conjunto de datos, preentrenamiento continuado en un subconjunto filtrado basado en la tasa de error de caracteres (CER), y ajuste fino en un pequeño número de muestras acústicamente similares al dominio objetivo.
Los experimentos con un conjunto de datos japonés débilmente supervisado de 90.000 horas mostraron que el filtrado redujo la CER hasta un 6,4%.
El método de selección redujo aún más la CER hasta un 4,0%, reutilizando ambas etapas las muestras de entrenamiento de la fase inicial de preentrenamiento.

Este método permite una mejor utilización de los conjuntos de datos débilmente supervisados al reducir sinérgicamente las tasas de error de caracteres mediante filtrado y selección dirigidos.