Как использовать синтетическую речь для систем ASR на основе LLM?

Исследователи изучают распределительный разрыв между синтетической и реальной речью в системах автоматического распознавания речи (ASR) на основе больших языковых моделей, исследуя архитектуру SLAM-ASR. Они выявляют, что дискриминативные сигналы, разделяющие два типа данных, сосредоточены в ранне-средних слоях основного блока модели.

Исследование показывает, что разделимость на уровне представлений не предсказывает напрямую прирост показателей ASR.
Свертка синтетического аудио с импульсными характеристиками помещения (RIR) сокращает разрыв в данных за счет воспроизведения акустических искажений, а не улучшения естественности.
Процедура обучения, сочетающая выбор слоев и аугментацию RIR, достигает уровня полностью реальных данных, используя лишь 25% реальной речи (13,6 ч).
Этот подход превосходит базовый уровень производительности при всех более высоких долях реальных данных.

Эти результаты демонстрируют, что синтетическая речь может эффективно заменять настоящие записи в доменах, чувствительных к конфиденциальности, при применении определенных архитектурных стратегий и аугментации.