Модели речи-текста латентно транскрибируют речь в промежуточных слоях
Модели речи-текста, встроенные друг в друга, проходят фазу неявной транскрипции, при которой речевые слова превращаются в декодируемые текстовые токены в промежуточных слоях, несмотря на отсутствие обучения по распознаванию речи. До 77% данных показывают, что речевое слово появляется как наиболее вероятный текстовый предсказываемый токен, после чего происходит переход к текстовому предсказанию следующего слова, прежде чем возвращение к речи. Это поведение влияется встроенными процессами обучения и инициализацией текстовых моделей, и коррелирует с производительностью по знанию речи.