L'article demande si les récentes améliorations des performances d'inférence apportées par des technologies comme dSpark, dflash, MTP et QAT sont suffisantes pour rendre le débordement du modèle vers le disque plus tolérable.
- L'auteur note que le débordement provoque généralement une chute de 4 à 5 tokens par seconde à 0,5 token par seconde.
- Le texte s'interroge sur la capacité de ces accélérateurs de vitesse à porter les vitesses d'inférence suffisamment haut pour maintenir une performance à peine acceptable pendant le débordement.
- Il cherche des retours d'expérience utilisateurs concernant la viabilité de l'utilisation de dSpark combiné au débordement sur disque.
L'article ne fournit pas de conclusion, car il s'agit d'une question cherchant les retours de la communauté sur les benchmarks de performance actuels.