Artikel ini menanyakan apakah peningkatan kinerja inferensi terbaru dari teknologi seperti dSpark, dflash, MTP, dan QAT cukup untuk membuat spill-over model ke disk lebih dapat ditoleransi.
- Penulis mencatat bahwa spill-over biasanya menyebabkan penurunan dari 4-5 token per detik menjadi 0,5 token per detik.
- Teks tersebut menanyakan apakah pendorong kecepatan ini mendorong kecepatan inferensi cukup tinggi untuk mempertahankan kinerja yang hampir dapat diterima selama spill-over.
- Artikel ini mencari pengalaman pengguna mengenai kelayakan penggunaan dSpark dikombinasikan dengan spill-over disk.
Artikel ini tidak memberikan kesimpulan, karena ini adalah pertanyaan yang mencari umpan balik komunitas mengenai benchmark kinerja saat ini.