OLIVE: Предсказание латентных представлений с дополнением обзоров и реконструкцией волны для самоконтролируемого обучения речи

Авторы предлагают OLIVE, фреймворк для самоконтролируемого обучения речевых представлений, который совместно оптимизирует цели анализа и синтеза через маскированное предсказание латентных представлений с дополнением обзоров и реконструкцией волны. Этот унифицированный подход ограничивает ранние признаки энкодера сохранять информацию на уровне сигнала, одновременно формируя более поздние контекстные представления к инвариантности для надежной производительности в последующих задачах.

Объединяет маскированное предсказание латентных представлений с дополнением обзоров и реконструкцией волны под одной целью.
Использует реконструкцию для ограничения ранних признаков энкодера сохранять информацию на уровне сигнала.
Формирует более поздние контекстные представления к инвариантности через маскированное предсказание латентных представлений.
Улучшает результаты в задачах генерации и распознавания говорящих, сохраняя конкурентоспособную производительность в задачах распознавания и семантики.

OLIVE обеспечивает представления, поддерживающие широкий спектр задач, особенно улучшая качество реконструкции волны вместе с повышенной производительностью в задачах генерации и идентификации говорящего.