xAIは、Grok Voice上で2分以内に本番環境対応の音声エージェントを設定できるノーコードプラットフォーム「Voice Agent Builder」のベータ版を公開した。このツールにより、運用担当者や開発者は、基礎となるテレフォニーやAIスタックを一から構築することなく、高ボリュームの音声エージェントを展開できる。

  • このプラットフォームはGrok Voiceと密接に連携する音声対音声パスを使用し、個別の音声認識(STT)、大規模言語モデル(LLM)、音声合成(TTS)APIを組み合わせることによる遅延とコストを回避する。
  • ユーザーは自然な言語のプロンプトでエージェントを設定でき、MarkdownやExcelなどの形式でナレッジベースを接続し、Googleカレンダー、Linear、カスタムAPIなどのツールと連携できる。
  • 機能には80種類以上の内蔵音声、2分間のオーディオからのボイスクローン、リアルタイム通知、録音および文字起こし付き通話記録、設定可能なガードレールが含まれる。
  • 料金体系はシンプル化され、プロビジョニング済み番号のテレフォニー料として1分あたり0.01ドルに加え、オーディオ1分あたり0.05ドルのAPIレートのみで、個別のコンポーネント料金が不要となった。

著者らは、このシステムがノイズ、アクセント、中断を含む現実世界の通話条件でトレーニングされており、従来のマルチコンポーネント音声スタックと比較して透明性が高くシンプルな料金モデルを提供することを目指していると強調している。