O artigo pergunta se os recentes aumentos de desempenho de inferência graças a tecnologias como dSpark, dflash, MTP e QAT são suficientes para tornar mais tolerável o transbordamento do modelo para o disco.
- O autor observa que o transbordamento geralmente causa uma queda de 4-5 tokens por segundo para 0,5 tokens por segundo.
- O texto indaga se esses aceleradores elevam a velocidade de inferência o suficiente para manter um desempenho apenas aceitável durante o transbordamento.
- Buscam-se experiências de usuários sobre a viabilidade de usar dSpark combinado com transbordamento para disco.
O artigo não fornece uma conclusão, pois é uma pergunta que busca feedback da comunidade sobre benchmarks de desempenho atuais.