FlowEdit: Adaptación de pronunciación continua en TTS con emparejamiento de flujos
FlowEdit permite que los modelos TFS de emparejamiento de flujos congelados adapten correcciones de pronunciación a lo largo del tiempo mediante ediciones latentes en incrustaciones de texto. Almacena las correcciones en una Red de Hopfield moderna y las recupera mediante atención suave con compuerta de similitud, reduciendo las tasas de error de fonema en un 92.7% en 312 sustantivos propios multilingües mientras preserva la calidad del habla general. Las correcciones tardan aproximadamente 15 segundos en completarse en una sola GPU.