FlowEdit позволяет адаптировать исправления произношения в замороженных моделях flow-matching TTS с течением времени с помощью скрытых редакций в векторных представлениях текста. Оно хранит исправления в современной сети Хопфилда и извлекает их с помощью мягкой внимательности с воротником схожести, снижая ошибки фонем на 92,7% при 312 многоречевых собственных имен, при этом сохраняя качество общего речевого произношения. Время выполнения исправлений составляет около 15 секунд на одном GPU.
FlowEdit: долгосрочная адаптация произношения в модели Flow-Matching TTS
Переведено с English → Русский