NL2Scratch introduce un benchmark ejecutable con 311.648 pares NL-programa válidos del analizador, derivados de proyectos reales de Scratch. Propone la Coherencia de Alineamiento Semántico (SAC) para medir el acuerdo semántico, validando 23.594 ejemplos y creando un benchmark diagnóstico equilibrado en 800 ranuras. Los experimentos muestran una brecha significativa entre la similitud léxica y el alineamiento semántico, con modelos que logran alta F1 a nivel de token pero que a menudo no alcanzan SAC perfecto, especialmente en ejemplos más largos.