OscillaTTS: Адаптивная осцилляторная индуктивная предвзятость для моделирования резких просодических динамики в диффузионных TTS-системах

Диффузионные модели преобразования текста в речь улучшили качество синтеза, но испытывают трудности с резкими просодическими переходами и быстрыми изменениями высоты тона. Существующие декодеры часто используют периодические нелинейности, такие как функция активации Snake, которые не обладают адаптивностью к внезапным изменениям амплитуды и частоты. Для решения этой проблемы авторы предлагают OscillaTTS — систему, оснащённую адаптивной осцилляторной нелинейностью. Этот компонент обеспечивает управляемую периодическую модуляцию, одновременно гарантируя стабильность сигнала благодаря механизму линейного обхода. В исследовании рассматривается роль осцилляторной индуктивной предвзятости в декодерах диффузионных TTS-систем. Эксперименты, проведённые на наборах данных LJSpeech и Emotional Speech Dataset, демонстрируют последовательные улучшения как по объективным, так и по субъективным метрикам. Эти результаты показывают, что OscillaTTS эффективно моделирует выразительную просодическую динамику по сравнению с предыдущими методами.