Los modelos de lenguaje del tamaño de GPT-2 no pueden descubrir independientemente el cero durante las pruebas, independientemente del preentrenamiento. Sin embargo, el rendimiento mejora significativamente con el entrenamiento en decenas o cientos de ejemplos de cero, y el preentrenamiento de lenguaje reduce los ejemplos requeridos en aproximadamente un 50%.