В статье задаётся вопрос, достаточно ли недавних улучшений производительности вывода благодаря таким технологиям, как dSpark, dflash, MTP и QAT, чтобы сделать более терпимым переполнение модели на диск.
- Автор отмечает, что переполнение обычно приводит к падению скорости с 4–5 токенов в секунду до 0,5 токенов в секунду.
- В тексте спрашивается, позволяют ли эти ускорители поднять скорость вывода настолько, чтобы поддерживать едва приемлемую производительность во время переполнения.
- Ищутся отзывы пользователей о целесообразности использования dSpark в сочетании с переполнением на диск.
Статья не содержит выводов, так как представляет собой вопрос, направленный на получение обратной связи от сообщества относительно текущих бенчмарков производительности.