Qwen3-tts.cpp и графический интерфейс Compose Desktop для локального синтеза речи

Разработчик выпустил оптимизированную реализацию на C++ для Qwen3-TTS, обеспечивающую скорость около 5x в реальном времени на RTX 5080, а также кроссплатформенный десктопный GUI, созданный с помощью Kotlin Compose Multiplatform. Проект предоставляет инференс на базе GGML, поддерживающий выполнение как на CPU, так и на CUDA в Windows и Linux.

Сообщается, что производительность в 15 раз выше, чем у референсной реализации на Python.
Поддерживаются размеры моделей 0.6B и 1.7B, включая базовые модели для клонирования голоса.
Имеются функции создания пользовательского голоса и дизайна голоса с поддержкой инструкций.
Позволяет сохранять, смешивать и объединять эмбеддинги говорящих.
Включает потоковый вывод с полуточным выделением текста.
Предоставляет варианты загрузки предварительно конвертированных моделей GGUF из Hugging Face.

Эт релиз позволяет пользователям запускать Qwen3-TTS локально с значительно улучшенной скоростью и удобным интерфейсом, облегчая клонирование и синтез речи без необходимости использовать оригинальную среду Python.