El artículo pregunta si los recientes aumentos de rendimiento de inferencia gracias a tecnologías como dSpark, dflash, MTP y QAT son suficientes para hacer más tolerable el desbordamiento del modelo al disco.

  • El autor señala que el desbordamiento suele causar una caída de 4-5 tokens por segundo a 0.5 tokens por segundo.
  • El texto indaga si estos aceleradores elevan la velocidad de inferencia lo suficiente como para mantener un rendimiento apenas aceptable durante el desbordamiento.
  • Se buscan experiencias de usuarios sobre la viabilidad de usar dSpark combinado con desbordamiento a disco.

El artículo no proporciona una conclusión, ya que es una pregunta que busca retroalimentación de la comunidad sobre los benchmarks de rendimiento actuales.