VeriEvol — это итеративная система, предназначенная для масштабирования мультимодального математического рассуждения путем разделения сложности промпта и надежности ответа на этапе конструирования данных. Она использует модуль эволюции с учетом типа для генерации более сложных промптов и верификатор HTV-Agent для обеспечения правильности ответов посредством поиска контрдоказательств из нескольких источников.

  • Модуль эволюции с учетом типа переписывает исходные пары «изображение-вопрос» низкой сложности в более сложные промпты, привязанные к изображению, используя операторы, специфичные для маршрута.
  • Верификатор HTV-Agent принимает ответы только после того, как контрдоказательства из нескольких источников не смогли их опровергнуть.
  • Масштабирование эволюционированных данных SFT с 10K до 250K примеров повышает среднюю точность на наборе из пяти бенчмарков с 35.42 до 54.73.
  • VeriEvol дает совокупное улучшение +3.88 по сравнению с базовой линией RL без эволюции, из которых +1.82 дают эволюционированные промпты и +2.06 — верификатор.

Система позволяет последующим исследованиям масштабировать и проверять конвейер данных, публикуя промпты, данные, модели, код и полные трассы верификатора для каждого примера.