Авторы предлагают OLIVE, фреймворк для самоконтролируемого обучения речевых представлений, который совместно оптимизирует цели анализа и синтеза через маскированное предсказание латентных представлений с дополнением обзоров и реконструкцией волны. Этот унифицированный подход ограничивает ранние признаки энкодера сохранять информацию на уровне сигнала, одновременно формируя более поздние контекстные представления к инвариантности для надежной производительности в последующих задачах.

  • Объединяет маскированное предсказание латентных представлений с дополнением обзоров и реконструкцией волны под одной целью.
  • Использует реконструкцию для ограничения ранних признаков энкодера сохранять информацию на уровне сигнала.
  • Формирует более поздние контекстные представления к инвариантности через маскированное предсказание латентных представлений.
  • Улучшает результаты в задачах генерации и распознавания говорящих, сохраняя конкурентоспособную производительность в задачах распознавания и семантики.

OLIVE обеспечивает представления, поддерживающие широкий спектр задач, особенно улучшая качество реконструкции волны вместе с повышенной производительностью в задачах генерации и идентификации говорящего.