Модели речи-текста, встроенные в друг друга, проходят скрытую фазу транскрипции, при которой речевые слова превращаются в разделяемые текстовые токены в промежуточных слоях, несмотря на отсутствие обучения по распознаванию речи. До 77% данных показывают, что речевое слово появляется как наиболее вероятный текстовый предсказываемый вариант, за которым следует продолжение текста и возврат к речи. Такое поведение обусловлено встраиванием данных и инициализацией текстовых моделей, что коррелирует с показателями знаний о речи.