VeriEvol: Escalar el razonamiento matemático multimodal mediante Verifiable Evol-Instruct

VeriEvol es un marco iterativo diseñado para escalar el razonamiento matemático multimodal desacoplando la dificultad del prompt de la fiabilidad de la respuesta durante la construcción de datos. Emplea un módulo de evolución consciente del tipo para generar prompts más difíciles y el verificador HTV-Agent para garantizar la corrección de las respuestas mediante contraevidencia multi-fuente.

El módulo de evolución consciente del tipo reescribe semillas de imagen-pregunta de baja dificultad en prompts más difíciles, fundamentados en imágenes, utilizando operadores específicos de ruta.
El verificador HTV-Agent acepta respuestas solo después de que la contraevidencia multi-fuente falla en refutarlas.
Escalar los datos SFT evolucionados de 10K a 250K muestras aumenta la precisión media en un conjunto de cinco benchmarks de 35.42 a 54.73.
VeriEvol añade un +3.88 acumulativo sobre una línea base RL no evolucionada, con +1.82 de los prompts evolucionados y +2.06 del verificador.

El marco permite que el trabajo posterior escale y audite la tubería de datos liberando prompts, datos, modelos, código y trazas completas del verificador para cada muestra.