Авторы представляют VeriEvol, итеративную структуру, предназначенную для масштабирования мультимодального математического рассуждения путем разделения сложности промпта и надежности ответа. Этот подход решает проблему поддержания надежных меток вознаграждения по мере увеличения объема данных в конвейерах обучения с подкреплением. Система использует модуль эволюции, учитывающий тип данных, для переписывания семян низкой сложности в более сложные промпты, привязанные к изображениям, с помощью операторов, специфичных для маршрута. Верификация ответов выполняется агентом HTV-Agent, который принимает ответы только после того, как контрдоказательства из нескольких источников не смогли их опровергнуть. Масштабирование данных для эволюционного супервизорного тонкого настраивания с 10 тыс. до 250 тыс. примеров увеличило среднюю точность на пяти бенчмарках с 35,42 до 54,73. При интеграции с фиксированным рецептом GRPO VeriEvol обеспечил совокупный прирост +3,88 по сравнению с базовой линией без эволюции. Это улучшение объясняется приростом +1,82 от эволюционированных промптов и +2,06 от верификатора HTV-Agent. Авторы публикуют все промпты, данные, модели, код и полные трассы верификатора для обеспечения последующей аудиторской проверки и масштабирования.
VeriEvol: Масштабирование мультимодального математического рассуждения с помощью верифицируемого Evol-Instruct
Переведено с English → Русский