Разработчик выпустил оптимизированную реализацию на C++ для Qwen3-TTS, обеспечивающую скорость около 5x в реальном времени на RTX 5080, а также кроссплатформенный десктопный GUI, созданный с помощью Kotlin Compose Multiplatform. Проект предоставляет инференс на базе GGML, поддерживающий выполнение как на CPU, так и на CUDA в Windows и Linux.

  • Сообщается, что производительность в 15 раз выше, чем у референсной реализации на Python.
  • Поддерживаются размеры моделей 0.6B и 1.7B, включая базовые модели для клонирования голоса.
  • Имеются функции создания пользовательского голоса и дизайна голоса с поддержкой инструкций.
  • Позволяет сохранять, смешивать и объединять эмбеддинги говорящих.
  • Включает потоковый вывод с полуточным выделением текста.
  • Предоставляет варианты загрузки предварительно конвертированных моделей GGUF из Hugging Face.

Эт релиз позволяет пользователям запускать Qwen3-TTS локально с значительно улучшенной скоростью и удобным интерфейсом, облегчая клонирование и синтез речи без необходимости использовать оригинальную среду Python.