Pregunta sobre si dSpark, dflash, MTP y QAT mitigan la pérdida de velocidad de inferencia por el desbordamiento del modelo a disco

El artículo pregunta si los recientes aumentos de rendimiento de inferencia gracias a tecnologías como dSpark, dflash, MTP y QAT son suficientes para hacer más tolerable el desbordamiento del modelo al disco.

El autor señala que el desbordamiento suele causar una caída de 4-5 tokens por segundo a 0.5 tokens por segundo.
El texto indaga si estos aceleradores elevan la velocidad de inferencia lo suficiente como para mantener un rendimiento apenas aceptable durante el desbordamiento.
Se buscan experiencias de usuarios sobre la viabilidad de usar dSpark combinado con desbordamiento a disco.

El artículo no proporciona una conclusión, ya que es una pregunta que busca retroalimentación de la comunidad sobre los benchmarks de rendimiento actuales.