Синтетическая аудиофреймворк улучшает распознавание речи в системах воздушного транспорта

Вводится синтетическая система генерации аудио для решения проблемы недостатка данных в распознавании речи в системах воздушного транспорта. Она использует нейронные методы, такие как текст-в-речь и преобразование интонации, для имитации неанглийских акцентов, что повышает эффективность автоматического распознавания речи. Эксперименты с моделью Whisper на корпусе ATCO2 показывают снижение ошибок распознавания слов при тонкой настройке с синтетическими или смешанными данными реальных и синтетических источников.