Generalización composicional en el razonamiento de modelos de lenguaje
Un modelo de selección latente jerárquico muestra que el ajuste fino supervisado y el aprendizaje por refuerzo trabajan juntos para habilitar la generalización composicional en modelos de lenguaje. El SFT proporciona materiales de módulos crudos, mientras que el RL identifica y recombina módulos atómicos a partir de trazas compuestas para resolver nuevos problemas. Entrenar en trazas compuestas conduce a una generalización más fuerte que el entrenamiento de módulos aislados, y se encuentra un protocolo efectivo donde el SFT asegura la cobertura de módulos y el RL impulsa la exploración de composiciones novedosas.