あるRedditユーザーは、商用APIに依存するのではなく、大規模言語モデルをローカルで実行することを選ぶ動機をいくつか説明している。
- ユーザーは任意のデータセットで任意のモデルをファインチューニングできる。
- 推測的デコーディングなどの手法を用いて、秒あたりのトークン数を最大化できる。
- ローカルで実行することで、AnthropicやOpenAIのようなプロバイダーにデータが共有されないことが保証される。
- ハードウェアはビジョン、テキスト、音声タスクに再利用可能であり、任意のモデルブレンドを無料で使用できる。
- ユーザーはAPIコストを気にせずにデータセットをキュレーションできる。
この投稿は、ローカル推論に関連する制御性、プライバシー、コスト効率の利点を強調している。