VeriEvol: Escalar el razonamiento matemático multimodal mediante Verifiable Evol-Instruct

Los autores presentan VeriEvol, un marco iterativo diseñado para escalar el razonamiento matemático multimodal desacoplando la dificultad del prompt de la fiabilidad de la respuesta. Este enfoque aborda el desafío de mantener etiquetas de recompensa fiables a medida que aumenta el volumen de datos en las tuberías de aprendizaje por refuerzo. El sistema utiliza un módulo de evolución consciente del tipo para reescribir semillas de baja dificultad en prompts más difíciles y basados en imágenes mediante operadores específicos de ruta. La verificación de respuestas es manejada por HTV-Agent, que acepta respuestas solo después de que la contraevidencia multi-fuente falla en refutarlas. Escalar los datos de ajuste fino supervisado evolucionado de 10K a 250K muestras aumentó la precisión media en cinco benchmarks de 35.42 a 54.73. Cuando se integró con una receta GRPO fija, VeriEvol proporcionó una ganancia acumulada de +3.88 sobre una línea base no evolucionada. Esta mejora se atribuye a +1.82 de los prompts evolucionados y +2.06 del verificador HTV-Agent. Los autores liberan todos los prompts, datos, modelos, código y trazas completas del verificador para permitir la auditoría y el escalado posteriores.