Ajuste fino evolutivo: Aprender a descubrir en 371 tareas de optimización

Los investigadores presentan el Ajuste Fino Evolutivo (EFT), un paradigma de entrenamiento intermedio que enseña a los Modelos de Lenguaje Grandes a evolucionar soluciones en diversas tareas, convirtiendo trayectorias de búsqueda evolutiva en supervisión. Este enfoque aborda la limitación de métodos anteriores que descartan la experiencia acumulada, permitiendo a los modelos reutilizar capacidades de descubrimiento en lugar de resolver nuevos problemas desde cero.

Los autores construyen la Colección Finch, un conjunto de datos de 156K trayectorias que abarcan 10 dominios y 371 tareas de optimización.
Modelos de lenguaje grandes de código abierto con parámetros entre 2B y 9B fueron ajustados finamente utilizando este método.
EFT confiere generalización entre tareas, con modelos que superan a sus contrapartes base en un promedio del 10.22% en 22 tareas retenidas.
Al combinarse con refuerzo durante el tiempo de prueba, el modelo iguala el rendimiento de vanguardia en dos tareas de empaquetado circular y supera a su contraparte base en el problema de superposición mínima de Erdős.

EFT sirve como una fase de práctica para agentes de descubrimiento de propósito general, permitiéndoles evolucionar iterativamente soluciones y reutilizar estrategias aprendidas en diferentes desafíos de optimización.