Работающий процесс для программистов с медленной локальной настройкой LLM

Пользователи делятся своими рабочими процессами при использовании локальных LLM при генерации токенов ниже 10 токенов в секунду. Общие стратегии включают использование кратких промптов, использование локальных моделей с минимальным контекстом и группировку запросов для максимизации эффективности.