В данной статье представлена методика AIR, которая наделяет мультимодальные большие языковые модели способностью к адаптивному чередующемуся рассуждению посредством расширенного обучения с подкреплением на задачах сложного численного вычисления, дополненных кодом. Авторы устраняют ограничение существующих исследований, которые в основном сосредоточены на использовании инструментов в задачах зрительного восприятия и опираются на заранее заданные эвристики, не способные обрабатывать численные вычисления. Для решения этой проблемы они предлагают комплексное решение из трех компонентов: двухэтапный конвейер создания стартовых данных, стратегии фильтрации данных для формирования набора данных обучения с подкреплением и стратегию адаптивного вызова инструментов, использующую функцию вознаграждения с групповыми ограничениями. Масштабные эксперименты демонстрируют, что после обучения с подкреплением с использованием данной функции вознаграждения производительность в среднем повышается на 6,1 процентного пункта по оценочным бенчмаркам. В частности, точность для образцов чередующегося рассуждения увеличивается на 9,9 процентного пункта, а общий показатель успешности использования инструментов превышает 95 процентов. Исследователи предоставляют свои данные и код для публичного доступа в указанном репозитории GitHub.