SFL-MTSC: Aprovechando la autoconsistencia multi-tarea a nivel de fotogramas semánticos para una comprensión robusta del lenguaje hablado con múltiples intenciones

La comprensión del lenguaje hablado basada en prompts con modelos de lenguaje grandes a menudo sufre de estructuras inconsistentes de intención-slot debido a la estocasticidad del descodificado, particularmente en escenarios de múltiples intenciones. Para abordar esto, los investigadores proponen la autoconsistencia multi-tarea a nivel de fotogramas semánticos (SFL-MTSC), un nuevo marco de agregación estructurada que opera a nivel de fotograma semántico. En lugar de depender del voto mayoritario a nivel de salida, SFL-MTSC descompone las predicciones en fotogramas específicos de intención y aplica agrupación por dominio-intención junto con clustering a nivel de slot. El marco evalúa la fiabilidad del cluster utilizando puntuación de soporte de ruta para determinar qué fotogramas son confiables. Los fotogramas confiables se retienen y reintegran para formar la predicción final, asegurando una mayor consistencia estructural. Experimentos zero-shot en el conjunto de datos MAC-SLU demuestran mejoras en las puntuaciones F1 de slot y precisión general en comparación con la inferencia de un solo camino. La precisión de intención permanece mayormente estable en la mayoría de los ajustes mientras se logran estas ganancias en el rendimiento a nivel de slot.