Un precipicio de calidad a 6.25 Hz en códecs de audio neuronales es causado por la exposición insuficiente de tokens de entrenamiento debido a una duración fija del clip. Corregir esta configuración de entrenamiento permite una degradación suave de WER hasta 3.1 Hz y 1.6 Hz, lo que indica que la eficiencia a baja tasa de fotogramas es más alcanzable de lo que se pensaba anteriormente.
Degradación de baja tasa de fotogramas en códecs de audio neuronales
Traducido del English → Español