Un desarrollador ha publicado una implementación optimizada en C++ de Qwen3-TTS, alcanzando aproximadamente 5x la velocidad en tiempo real en una RTX 5080, junto con una GUI de escritorio multiplataforma construida con Kotlin Compose Multiplatform. El proyecto ofrece inferencia basada en GGML que soporta ejecución tanto en CPU como en CUDA en Windows y Linux.

  • Se reporta un rendimiento 15x más rápido que la implementación de referencia en Python.
  • Soporta tamaños de modelo de 0.6B y 1.7B, incluyendo modelos base para clonación de voz.
  • Cuenta con capacidades de diseño y personalización de voz con soporte para instrucciones.
  • Permite guardar, mezclar y fusionar embeddings de hablante.
  • Incluye salida en streaming con resaltado de texto semi-preciso.
  • Proporciona opciones de descarga para modelos GGUF preconvertidos desde Hugging Face.

Este lanzamiento permite a los usuarios ejecutar Qwen3-TTS localmente con una velocidad significativamente mejorada y una interfaz amigable, facilitando la clonación y síntesis de voz sin depender del entorno original de Python.