El Metanym Game introduce un benchmark resistente a la contaminación para LLMs que mide la inteligencia estructural mediante la creación dinámica y al vuelo de analogías. Una descomposición en valores singulares de las calificaciones del evaluador revela tanto la competencia de generación como la de juzgamiento, con una correlación fuerte entre precisión factual y GPQA Diamond en r = 0.92. El juicio es una habilidad más rara: los mejores generadores son jueces promedio, mientras que los mejores jueces producen salidas de nivel medio, y los modelos más fuertes obtienen asientos en un consejo que se autoevalúa y gobierna el benchmark.