Un sistema jerárquico que utiliza un LLM preentrenado para seleccionar políticas de habilidades de RL supera al RL plano en un entorno King of the Hill 2v2. Igualua el rendimiento de los árboles de comportamiento diseñados a mano en tasa de victoria y es percibido como más humano por el 60% de los usuarios, destacando una coordinación efectiva y adaptabilidad sin diseño manual de reglas.