Artikel ini menanyakan apakah peningkatan kinerja inferensi terbaru dari teknologi seperti dSpark, dflash, MTP, dan QAT cukup untuk membuat spill-over model ke disk lebih dapat ditoleransi.

  • Penulis mencatat bahwa spill-over biasanya menyebabkan penurunan dari 4-5 token per detik menjadi 0,5 token per detik.
  • Teks tersebut menanyakan apakah pendorong kecepatan ini mendorong kecepatan inferensi cukup tinggi untuk mempertahankan kinerja yang hampir dapat diterima selama spill-over.
  • Artikel ini mencari pengalaman pengguna mengenai kelayakan penggunaan dSpark dikombinasikan dengan spill-over disk.

Artikel ini tidak memberikan kesimpulan, karena ini adalah pertanyaan yang mencari umpan balik komunitas mengenai benchmark kinerja saat ini.