Исследователи представляют Эволюционное тонкое настраивание (EFT), парадигму промежуточного обучения, которая обучает большие языковые модели эволюционировать решения для разнообразных задач путем преобразования траекторий эволюционного поиска в обучающие данные. Этот подход устраняет ограничение предыдущих методов, которые отбрасывали накопленный опыт, позволяя моделям повторно использовать способности к открытию, а не решать новые задачи с нуля.
- Авторы создают коллекцию Finch, набор данных из 156K траекторий, охватывающих 10 областей и 371 задачу оптимизации.
- С помощью этого метода были тонко настроены модели с открытым исходным кодом от 2B до 9B параметров.
- EFT обеспечивает обобщение между задачами: модели превосходят свои базовые аналоги в среднем на 10,22% по 22 тестовым задачам.
- В сочетании с обучением с подкреплением во время тестирования модель достигает состояния искусства в двух задачах упаковки кругов и превосходит своего базового аналога в задаче минимального перекрытия Эрдёша.
EFT служит фазой практики для универсальных агентов открытия, позволяя им итеративно эволюционировать решения и повторно использовать изученные стратегии для различных задач оптимизации.