Autodata: Un científico de datos agente para crear datos sintéticos de alta calidad
Los autores presentan Autodata, un método general que permite a los agentes de IA funcionar como científicos de datos para construir conjuntos de datos de entrenamiento y evaluación de alta calidad. El enfoque implica meta-optimizar estos agentes para que aprendan a generar datos cada vez más robustos mediante un proceso llamado Agentic Self-Instruct. Se realizaron experimentos en tareas de investigación en ciencias de la computación, razonamiento legal y razonamiento de objetos matemáticos. Los resultados demuestran que este método de creación agente produce un rendimiento mejorado en comparación con las técnicas clásicas de creación de conjuntos de datos sintéticos. Además, la meta-optimización del propio agente científico de datos proporciona un aumento de rendimiento aún mayor. Este trabajo ilustra cómo el cómputo de inferencia incrementado puede convertirse en datos de entrenamiento de modelos de mayor calidad. Los autores sugieren que esta dirección tiene el potencial de cambiar fundamentalmente la forma en que se construyen los datos de IA.