DataClaw0 introduce un paradigma agéntico para refinar activamente los datos multimodales en bruto con el fin de alinearse con las intenciones del usuario y de las tareas posteriores. Utiliza una canalización en dos etapas basada en anclajes factuales para generar un conjunto de datos a gran escala en cinco dominios, y combina el ajuste fino supervisado con GRPO para lograr una fuerte alineación con tareas de refinamiento complejas. Evaluado en generación de video, VQA y navegación por GUI, DataClaw0 produce datos adaptados de alta densidad de información, lo que permite una adaptación eficiente del modelo con mínimos datos de entrenamiento.
DataClaw0: Adaptación agéntica de datos multimodales a partir de flujos en bruto
Traducido del English → Español