audio.cpp 런타임 작성자가 VibeVoice 1.5B 모델에 대한 지원을 추가하여, 네이티브 C++/ggml 환경에서 장편 다화자 텍스트 음성 합성을 가능하게 했습니다.

  • RTX 5090에서의 벤치마크 결과, VibeVoice는 22.95분 동안 93.6분의 오디오를 생성했습니다(실시간 대비 4.08배 속도).
  • 이는 양자화 없는 Python 기반 대비 2.86배의 속도 향상입니다.
  • 이 런타임은 재사용 가능한 세션, 안정적인 메모리 동작 및 로컬 추론을 위한 CUDA 중심 최적화를 제공하는 것을 목표로 합니다.

이 추가 기능은 Python 설정 오버헤드를 피하고 대화 및 내레이션 작업에 대한 최적화된 성능을 제공함으로써 로컬에서 장편 오디오 모델을 더 실용적으로 만듭니다.