El autor comparte una configuración práctica para usar modelos de lenguaje grandes locales en hardware modesto, específicamente una laptop con 32 GB de RAM y una NVIDIA RTX 4070 con 8 GB de VRAM. La estrategia central implica ejecutar el modelo Qwen3.6-35B-A3B localmente como un 'agente de codificación pequeño' mientras se descarga la planificación compleja a una instancia en la nube basada en GLM 5.2.

  • El modelo local Qwen3.6-35B-A3B funciona de manera confiable a aproximadamente 15 tokens por segundo con energía de batería, actuando como un agente de codificación acotado para tareas específicas.
  • Se utiliza una arquitectura híbrida con una división del 90% local y 10% en la nube, costando menos de $1 para que GLM 5.2 genere planes de tarea detallados que el modelo local ejecute.
  • El usuario emplea pi-coding-agent y llama-server (de llama.cpp) para ejecutar la inferencia local, revisando todos los cambios de código producidos por el agente.
  • Las brechas de conocimiento se abordan mediante análisis posteriores con el modelo, agregando consejos a un archivo README que el agente utiliza en sesiones subsiguientes para mejorar la calidad del código.

Este enfoque permite una asistencia útil para la programación en hardware ordinario al combinar la eficiencia de costos de la inferencia local con las capacidades de razonamiento de un modelo de nube más económico para la planificación de alto nivel.