Вопрос о том, снижают ли dSpark, dflash, MTP и QAT потерю скорости вывода из-за переполнения модели на диск

В статье задаётся вопрос, достаточно ли недавних улучшений производительности вывода благодаря таким технологиям, как dSpark, dflash, MTP и QAT, чтобы сделать более терпимым переполнение модели на диск.

Автор отмечает, что переполнение обычно приводит к падению скорости с 4–5 токенов в секунду до 0,5 токенов в секунду.
В тексте спрашивается, позволяют ли эти ускорители поднять скорость вывода настолько, чтобы поддерживать едва приемлемую производительность во время переполнения.
Ищутся отзывы пользователей о целесообразности использования dSpark в сочетании с переполнением на диск.

Статья не содержит выводов, так как представляет собой вопрос, направленный на получение обратной связи от сообщества относительно текущих бенчмарков производительности.