10億パラメータ未満の新しいトリプルハイブリッドLLMを約50ドルで構築しました

Mateuszは、Project InkblotのTitan v1と呼ばれる完全な事前学習済み言語モデルを開発し、Mamba SSM、Multi-Head Attention、32エクスパートMoEを10億パラメータ未満の単一デコーダー専用アーキテクチャに統合しました。このモデルは単一のNVIDIA L4 GPUで約50ドルの費用でトレーニングされ、検証パープレキシティ27.5を達成し、PyTorchでゼロから実装されたすべてのコンポーネントを用いて、1行の設定更新による効率的なスケーリングを示しました。Titan v2の最初のトレーニングサイクルは完了し、データセットの拡張が進行中です。