Un nuevo marco genera diálogos sintéticos sin datos anotados por humanos, utilizando únicamente definiciones de intención. Incorpora atributos de tema y estilo, con modelos de estilización posteriores Univ y Exam, y un proceso de filtrado mediante LLM-as-a-judge. Los resultados muestran hasta el 93.3% del rendimiento de los datos anotados por humanos, confirmando que la diversidad de estilos es más crítica que la diversidad de temas para la utilidad de los datos.
La diversidad de estilos supera a la diversidad de temas en datos sintéticos sin anotación
Traducido del English → Español