Pergunta sobre se dSpark, dflash, MTP e QAT mitigam a perda de velocidade de inferência devido ao transbordamento do modelo para o disco

O artigo pergunta se os recentes aumentos de desempenho de inferência graças a tecnologias como dSpark, dflash, MTP e QAT são suficientes para tornar mais tolerável o transbordamento do modelo para o disco.

O autor observa que o transbordamento geralmente causa uma queda de 4-5 tokens por segundo para 0,5 tokens por segundo.
O texto indaga se esses aceleradores elevam a velocidade de inferência o suficiente para manter um desempenho apenas aceitável durante o transbordamento.
Buscam-se experiências de usuários sobre a viabilidade de usar dSpark combinado com transbordamento para disco.

O artigo não fornece uma conclusão, pois é uma pergunta que busca feedback da comunidade sobre benchmarks de desempenho atuais.