Un usuario reporta una generación lenta de tokens al ejecutar un agente local en una 4090 con 24GB de VRAM, a pesar de ajustar la configuración del contexto y el batching. Señala que Gemma4 es más rápida pero produce tokens incorrectos como <code></tool_call></code>, y busca configuraciones recomendadas y explicaciones para parámetros como top_p y top_k.
Agente local en 4090 - buscando configuraciones de LM Studio
Traducido del English → Español