Los investigadores investigan la brecha distribucional entre el habla sintética y real en sistemas de reconocimiento automático del habla (ASR) basados en LLM, analizando una arquitectura SLAM-ASR. Identifican que las señales discriminativas que separan ambos tipos de datos se concentran en las capas iniciales a medias del backbone del modelo.

  • El estudio encuentra que la separabilidad a nivel de representación no predice directamente las mejoras posteriores en ASR.
  • La convolución de audio sintético con respuestas de impulso de sala (RIR) reduce la brecha de datos reproduciendo irregularidades acústicas en lugar de mejorar la naturalidad.
  • Un procedimiento de entrenamiento que combina selección de capas y aumento con RIR iguala una línea base con datos completamente reales utilizando solo el 25% del habla real (13.6h).
  • Este enfoque supera el rendimiento de la línea base en todas las proporciones superiores de datos reales.

Estos hallazgos demuestran que el habla sintética puede reemplazar eficazmente las grabaciones genuinas en dominios sensibles a la privacidad cuando se aplican estrategias específicas de arquitectura y aumento.