La diversidad de estilos supera a la diversidad de temas en datos sintéticos sin anotación
Un nuevo marco genera diálogos sintéticos sin datos anotados por humanos, utilizando únicamente definiciones de intención. Incorpora atributos de tema y estilo, con modelos de estilización posteriores Univ y Exam, y un proceso de filtrado mediante LLM-as-a-judge. Los resultados muestran hasta el 93.3% del rendimiento de los datos anotados por humanos, confirmando que la diversidad de estilos es más crítica que la diversidad de temas para la utilidad de los datos.