Pertanyaan mengenai apakah dSpark, dflash, MTP, dan QAT mengurangi kehilangan kecepatan inferensi dari spill-over model ke disk

Artikel ini menanyakan apakah peningkatan kinerja inferensi terbaru dari teknologi seperti dSpark, dflash, MTP, dan QAT cukup untuk membuat spill-over model ke disk lebih dapat ditoleransi.

Penulis mencatat bahwa spill-over biasanya menyebabkan penurunan dari 4-5 token per detik menjadi 0,5 token per detik.
Teks tersebut menanyakan apakah pendorong kecepatan ini mendorong kecepatan inferensi cukup tinggi untuk mempertahankan kinerja yang hampir dapat diterima selama spill-over.
Artikel ini mencari pengalaman pengguna mengenai kelayakan penggunaan dSpark dikombinasikan dengan spill-over disk.

Artikel ini tidak memberikan kesimpulan, karena ini adalah pertanyaan yang mencari umpan balik komunitas mengenai benchmark kinerja saat ini.