Авторы предлагают OLIVE, фреймворк для самоконтролируемого обучения речевых представлений, который совместно оптимизирует цели анализа и синтеза через маскированное предсказание латентных представлений с дополнением обзоров и реконструкцией волны. Этот унифицированный подход ограничивает ранние признаки энкодера сохранять информацию на уровне сигнала, одновременно формируя более поздние контекстные представления к инвариантности для надежной производительности в последующих задачах.
- Объединяет маскированное предсказание латентных представлений с дополнением обзоров и реконструкцией волны под одной целью.
- Использует реконструкцию для ограничения ранних признаков энкодера сохранять информацию на уровне сигнала.
- Формирует более поздние контекстные представления к инвариантности через маскированное предсказание латентных представлений.
- Улучшает результаты в задачах генерации и распознавания говорящих, сохраняя конкурентоспособную производительность в задачах распознавания и семантики.
OLIVE обеспечивает представления, поддерживающие широкий спектр задач, особенно улучшая качество реконструкции волны вместе с повышенной производительностью в задачах генерации и идентификации говорящего.