Новый алгоритм расписывания, Smallest Volume First (SVF), снижает задержку инференса больших языковых моделей за счёт оптимизации управления кэшем ключ-значение. Теоретический анализ показывает, что коэффициент конкуренции в худшем случае сократился с 48 до 5, при этом 1-битный SVF обеспечивает высокую производительность при минимальной информации. Оценки на моделях Llama-3.1 подтверждают улучшения как средней, так и хвостовой задержки, при этом подход был интегрирован в vLLM.
Геометрия-ориентированный онлайн-расписыватель для обслуживания больших языковых моделей
Переведено с English → Русский