Dziri Voicebot: система преобразования речи в речь от начала до конца для алжирского диалекта

В статье представлен Dziri Voicebot, сквозная разговорная система преобразования речи в речь, разработанная для малоресурсного алжирского диалекта. Эта работа расширяет предыдущие усилия по моделированию диалогов на основе текста, предпринятые Бешери и Ланасри, до полноценного речевого взаимодействия. Предложенный модульный конвейер объединяет автоматическое распознавание речи, понимание естественного языка, генерацию с дополнением извлечениями (retrieval-augmented generation) и синтез речи из текста. Были созданы специализированные наборы данных для телекоммуникационной области для дообучения предобученных моделей для каждого компонента. Система ASR использует адаптацию на основе Whisper, а модуль NLU объединяет трансформерные эмбеддинги с фреймворком ориентированных на задачу диалогов. Нейросеть TTS была обучена на новом собранном корпусе диалектных данных для обеспечения генерации речевых ответов. Экспериментальные результаты демонстрируют высокую производительность всех компонентов, включая низкий уровень ошибки слов и высокие показатели классификации намерений.