Пользователи делятся своими рабочими процессами при использовании локальных LLM при генерации токенов ниже 10 токенов в секунду. Общие стратегии включают использование кратких промптов, использование локальных моделей с минимальным контекстом и группировку запросов для максимизации эффективности.