Los investigadores presentan el Ajuste Fino Evolutivo (EFT), un paradigma de entrenamiento intermedio que enseña a los Modelos de Lenguaje Grandes a evolucionar soluciones en diversas tareas, convirtiendo trayectorias de búsqueda evolutiva en supervisión. Este enfoque aborda la limitación de métodos anteriores que descartan la experiencia acumulada, permitiendo a los modelos reutilizar capacidades de descubrimiento en lugar de resolver nuevos problemas desde cero.

  • Los autores construyen la Colección Finch, un conjunto de datos de 156K trayectorias que abarcan 10 dominios y 371 tareas de optimización.
  • Modelos de lenguaje grandes de código abierto con parámetros entre 2B y 9B fueron ajustados finamente utilizando este método.
  • EFT confiere generalización entre tareas, con modelos que superan a sus contrapartes base en un promedio del 10.22% en 22 tareas retenidas.
  • Al combinarse con refuerzo durante el tiempo de prueba, el modelo iguala el rendimiento de vanguardia en dos tareas de empaquetado circular y supera a su contraparte base en el problema de superposición mínima de Erdős.

EFT sirve como una fase de práctica para agentes de descubrimiento de propósito general, permitiéndoles evolucionar iterativamente soluciones y reutilizar estrategias aprendidas en diferentes desafíos de optimización.