著者は、トークナイザーや学習済み入力埋め込みを使用せず、0パラメータのHSLバイト基盤を使用して音声からテキスト(STT)およびテキストから音声(TTS)モデルを構築する研究プロジェクトであるHoLo-ToLkを紹介します。この作業は、特定のアーキテクチャ変更と組み合わせることで、生のHSLバイトが音声処理にとって有効な信号となり得ることを示しています。
- STTのパフォーマンスは、凍結された基盤上に学習可能なゲート融合を追加することで文字誤り率(CER)0.194を達成し、制御された比較において0.213のメルスペクトログラムベースラインを上回りました。
- TTSの実装では、UTF-8テキストバイトをガイデッドアテンションとHiFi-GAN付きの自己回帰トランスフォーマーに直接入力し、教師強制mel-L1損失0.296を達成しました。
- STTの結果は4つのシード間で堅牢と考えられていますが、任意の文に対するTTSのフリーラン合成はまだ粗く不安定であり、これは生産準備完了システムではなく実現可能性のデモとして位置づけられています。
このプロジェクトはトークナイザー不要の音声処理のための概念実証(PoC)として機能し、長期的な目標は個別のSTTおよびTTSモデルを単一のアーキテクチャに統合することです。