Un usuario reporta una generación lenta de tokens al ejecutar un agente local en una 4090 con 24GB de VRAM, a pesar de ajustar la configuración del contexto y el batching. Señala que Gemma4 es más rápida pero produce tokens incorrectos como <code>&lt;/tool_call&gt;</code>, y busca configuraciones recomendadas y explicaciones para parámetros como top_p y top_k.