Исследователи представляют Эволюционное тонкое настраивание (EFT), парадигму промежуточного обучения, которая обучает большие языковые модели эволюционировать решения для разнообразных задач путем преобразования траекторий эволюционного поиска в обучающие данные. Этот подход устраняет ограничение предыдущих методов, которые отбрасывали накопленный опыт, позволяя моделям повторно использовать способности к открытию, а не решать новые задачи с нуля.

  • Авторы создают коллекцию Finch, набор данных из 156K траекторий, охватывающих 10 областей и 371 задачу оптимизации.
  • С помощью этого метода были тонко настроены модели с открытым исходным кодом от 2B до 9B параметров.
  • EFT обеспечивает обобщение между задачами: модели превосходят свои базовые аналоги в среднем на 10,22% по 22 тестовым задачам.
  • В сочетании с обучением с подкреплением во время тестирования модель достигает состояния искусства в двух задачах упаковки кругов и превосходит своего базового аналога в задаче минимального перекрытия Эрдёша.

EFT служит фазой практики для универсальных агентов открытия, позволяя им итеративно эволюционировать решения и повторно использовать изученные стратегии для различных задач оптимизации.