Как использовать синтетическую речь для систем ASR на основе LLM?
Исследователи изучают распределительный разрыв между синтетической и реальной речью в системах автоматического распознавания речи (ASR) на основе больших языковых моделей, исследуя архитектуру SLAM-ASR. Они выявляют, что дискриминативные сигналы, разделяющие два типа данных, сосредоточены в ранне-средних слоях основного блока модели.