xAI는 Grok Voice에서 2분 이내에 프로덕션 등급의 음성 에이전트를 구성할 수 있는 노코드 플랫폼인 Voice Agent Builder의 베타 버전을 발표했습니다. 이 도구를 사용하면 운영자 및 개발자가 기반이 되는 전화망이나 AI 스택을 처음부터 구축하지 않고도 고부하 음성 에이전트를 배포할 수 있습니다.
- 이 플랫폼은 Grok Voice와 긴밀하게 결합된 음성 대 음성 경로를 사용하며, 별도의 음성 인식(STT), 대규모 언어 모델(LLM), 음성 합성(TTS) API를 연결하는 데 따른 지연 시간과 비용을 피합니다.
- 사용자는 평문 프롬프트를 통해 에이전트를 구성하고 Markdown이나 Excel과 같은 형식의 지식 기반을 연결하며 Google 캘린더, Linear 또는 사용자 정의 API와 같은 도구를 연결할 수 있습니다.
- 기능에는 80개 이상의 내장 음성, 2분간의 오디오에서 보이스 클로닝, 실시간 알림, 녹음 및 자동 필기 포함 통화 기록, 구성 가능한 가드레일이 포함됩니다.
- 가격 정책은 단순화되어 프로비저닝된 번호에 대한 전화망 요금으로 분당 $0.01과 오디오 분당 $0.05의 API 요금이 적용되며, 개별 구성 요소 요금이 제거되었습니다.
저자들은 이 시스템이 소음, 억양, 방해가 포함된 실제 세계 통화 조건에서 훈련되었으며, 전통적인 다중 구성 요소 음성 스택에 비해 투명하고 간단한 가격 모델을 제공하도록 설계되었다고 강조합니다.