CORTIS: Adaptación de Modelos de Lenguaje Hablado Solo con Texto
CORTIS permite que los agentes de voz orientados a tareas generen salidas de habla estructuradas mediante el ajuste fino de modelos de lenguaje hablado utilizando únicamente supervisión de tareas en formato texto. Supera a las cascadas ASR-LLM bajo degradación acústica, especialmente en la preservación de la semántica de alto nivel de la tarea, sin requerir anotaciones emparejadas de habla-objetivo durante el entrenamiento.