Предобучение речевого энкодера с усилением за счёт перевода улучшает речевые большие языковые модели

Подключение предварительно обученного речевого энкодера к большой языковой модели (LLM) создаёт структурное несоответствие, поскольку энкодеры часто генерируют представления, специфичные для языка, тогда как LLM работают в едином, независимом от языка пространстве. Авторы утверждают, что включение целей перевода речи в процесс предобучения обеспечивает принципиальный механизм для преодоления этого разрыва. В отличие от моноязычной транскрипции, перевод заставляет модель обучаться представлениям, независимым от конкретных языков. В исследовании экспериментально оценивается влияние добавления этих целей перевода на этапе предобучения речевого энкодера. Результаты демонстрируют, что такой подход значительно улучшает кросс-модальную интеграцию между речевым и текстовым модусами. В результате модели, использующие предобучение с усилением за счёт перевода, показывают превосходные результаты в различных задачах речевых больших языковых моделей.