Se presenta un marco de generación de audio sintético para abordar la escasez de datos en el reconocimiento de voz del control de tráfico aéreo. Utiliza técnicas neuronales como Texto-a-Voz y conversión de acento para simular acentos no nativos del inglés, mejorando el rendimiento del Reconocimiento Automático de Voz. Los experimentos con el modelo Whisper en el corpus ATCO2 muestran una reducción en las tasas de error de palabras cuando se ajusta finamente con datos sintéticos o mixtos reales-sintéticos.