Los usuarios comparten sus flujos de trabajo para codificar con LLMs locales cuando la generación de tokens es inferior a 10 tokens por segundo. Las estrategias comunes incluyen el uso de prompts concisos, aprovechar modelos locales con contexto mínimo y agrupar consultas para maximizar la eficiencia.
Flujo de trabajo para programadores con configuración lenta de LLM local
Traducido del English → Español