Исследователи изучают распределительный разрыв между синтетической и реальной речью в системах автоматического распознавания речи (ASR) на основе больших языковых моделей, исследуя архитектуру SLAM-ASR. Они выявляют, что дискриминативные сигналы, разделяющие два типа данных, сосредоточены в ранне-средних слоях основного блока модели.
- Исследование показывает, что разделимость на уровне представлений не предсказывает напрямую прирост показателей ASR.
- Свертка синтетического аудио с импульсными характеристиками помещения (RIR) сокращает разрыв в данных за счет воспроизведения акустических искажений, а не улучшения естественности.
- Процедура обучения, сочетающая выбор слоев и аугментацию RIR, достигает уровня полностью реальных данных, используя лишь 25% реальной речи (13,6 ч).
- Этот подход превосходит базовый уровень производительности при всех более высоких долях реальных данных.
Эти результаты демонстрируют, что синтетическая речь может эффективно заменять настоящие записи в доменах, чувствительных к конфиденциальности, при применении определенных архитектурных стратегий и аугментации.