El artículo presenta Dziri Voicebot, un sistema conversacional de voz a voz de extremo a extremo diseñado para el bajo recurso del dialecto argelino. Este trabajo extiende los esfuerzos previos de modelado de diálogos basados en texto de Bechiri y Lanasri hacia una interacción completa basada en voz. La canalización modular propuesta integra reconocimiento automático de voz, comprensión del lenguaje natural, generación aumentada por recuperación y síntesis de texto a voz. Se construyeron conjuntos de datos dedicados para el dominio de telecomunicaciones con el fin de ajustar modelos preentrenados para cada componente. El sistema ASR utiliza una adaptación basada en Whisper, mientras que el módulo NLU combina incrustaciones de transformadores con un marco de diálogo orientado a tareas. Se entrenó un sistema TTS neural sobre un corpus dialectal recién recopilado para habilitar la generación de respuestas habladas. Los resultados experimentales demuestran un rendimiento sólido en todos los componentes, incluyendo bajas tasas de error de palabras y altas puntuaciones de clasificación de intención.
Dziri Voicebot: Sistema de voz a voz de extremo a extremo para el dialecto argelino
Traducido del English → Español