В статье задаётся вопрос, достаточно ли недавних улучшений производительности вывода благодаря таким технологиям, как dSpark, dflash, MTP и QAT, чтобы сделать более терпимым переполнение модели на диск.

  • Автор отмечает, что переполнение обычно приводит к падению скорости с 4–5 токенов в секунду до 0,5 токенов в секунду.
  • В тексте спрашивается, позволяют ли эти ускорители поднять скорость вывода настолько, чтобы поддерживать едва приемлемую производительность во время переполнения.
  • Ищутся отзывы пользователей о целесообразности использования dSpark в сочетании с переполнением на диск.

Статья не содержит выводов, так как представляет собой вопрос, направленный на получение обратной связи от сообщества относительно текущих бенчмарков производительности.