本記事は、dSpark、dflash、MTP、QATなどの技術による最近の推論パフォーマンスの向上が、モデルのディスクへのスピルオーバーをより許容可能にするのに十分かどうかを問うている。

  • 著者は、スピルオーバーによって通常4〜5トークン/秒から0.5トークン/秒に速度が低下すると指摘している。
  • 記事は、これらの速度向上技術が、スピルオーバー中にぎりぎり許容できるパフォーマンスを維持するのに十分な推論速度をもたらすかどうかを問いかけている。
  • dSparkとディスクスピルオーバーの併用の実用性に関するユーザーの経験を探っている。

本記事は結論を提供していない。これは、現在のベンチマークに関するコミュニティからのフィードバックを求める質問だからである。