VeriEvol: Escalar el razonamiento matemático multimodal con evolución verificable

VeriEvol introduce un marco de construcción de datos verificable para el razonamiento matemático visual, desacoplando la dificultad del prompt y la fiabilidad de la respuesta. Evoluciona prompts de imagen-pregunta utilizando operadores conscientes del tipo y verifica las respuestas mediante falsificación por contra-evidencia multi-fuente. En cinco benchmarks, escalar de 10K a 250K muestras mejora la precisión media de 35.42 a 54.73, con un acumulado de +3.88 sobre la línea base, impulsado por prompts evolucionados y verificación HTV-Agent.