NL2Scratch представляет выполнимый бенчмарк, содержащий 311 648 пар парсера-валидных программ на языке NL, полученных из реальных проектов Scratch. В нем предложена семантическая согласованность (SAC) для измерения семантического согласия, проверена 23 594 примера и создана балансированная диагностическая база из 800 слотов. Эксперименты показывают значительное расхождение между лексической схожестью и семантической согласованностью, при этом модели, достигающие высокого F1 на уровне токенов, часто не достигают полной SAC, особенно на более длинных примерах.