VeriEvol — это итеративная система, предназначенная для масштабирования мультимодального математического рассуждения путем разделения сложности промпта и надежности ответа на этапе конструирования данных. Она использует модуль эволюции с учетом типа для генерации более сложных промптов и верификатор HTV-Agent для обеспечения правильности ответов посредством поиска контрдоказательств из нескольких источников.
- Модуль эволюции с учетом типа переписывает исходные пары «изображение-вопрос» низкой сложности в более сложные промпты, привязанные к изображению, используя операторы, специфичные для маршрута.
- Верификатор HTV-Agent принимает ответы только после того, как контрдоказательства из нескольких источников не смогли их опровергнуть.
- Масштабирование эволюционированных данных SFT с 10K до 250K примеров повышает среднюю точность на наборе из пяти бенчмарков с 35.42 до 54.73.
- VeriEvol дает совокупное улучшение +3.88 по сравнению с базовой линией RL без эволюции, из которых +1.82 дают эволюционированные промпты и +2.06 — верификатор.
Система позволяет последующим исследованиям масштабировать и проверять конвейер данных, публикуя промпты, данные, модели, код и полные трассы верификатора для каждого примера.