Las evaluaciones tradicionales reducen el aprendizaje a una única puntuación agregada, oscureciendo qué tan bien el conocimiento de un ejemplo se generaliza a otros. Los autores introducen el Espectro de Generalización, un marco de evaluación que mide la generalización por muestra mediante el seguimiento del rendimiento en variantes de prueba con distancia de transferencia creciente. Estas variantes van desde la recuperación exacta hasta la transferencia de implementación entre idiomas y la transferencia de contexto bajo reencuadre narrativo. El marco se instancia en programación competitiva utilizando un pipeline de selección y síntesis sembrado con problemas recientes para mitigar la contaminación. Las comparaciones de paradigmas de aprendizaje canónicos muestran que el Aprendizaje por Refuerzo convierte la memorización en near-transfer más eficientemente que las líneas base de Ajuste Fino Supervisado. El aprendizaje in-context exhibe capacidades de transferencia fuertes pero dependientes de la correspondencia en este contexto. Los perfiles diagnósticos revelan que las ganancias locales no necesariamente expanden el radio de generalización para todos los métodos. Específicamente, las abstracciones y pistas principalmente elevan la transferencia local, mientras que el SFT de Referencia preserva una cola de far-transfer más fuerte que RFT. Además, la auto-distilación o el RL asistido por pistas puede reducir la far-transfer incluso cuando mejora la transferencia local.