El autor demuestra que los modelos locales, específicamente Qwen 3.6 27B, pueden realizar una redacción de documentos de extremo a extremo cuando se optimizan con un nivel de cuantización más alto y un arnés de agente que utiliza el marco PI.

  • El sistema utiliza Qwen 3.6 27B cuantizado a Q6_K_XL con una ventana de contexto de 114k tokens, requiriendo 40GB de VRAM.
  • Una interfaz basada en Gradio permite a los usuarios cargar documentos y proporcionar instrucciones de redacción personalizadas al agente.
  • El backend emplea herramientas de OCR como Tesseract y PaddleOCR junto con spaCy para la identificación de PII.
  • Se utilizan capacidades VLM para detectar rostros y firmas dentro de documentos escaneados.
  • Las pruebas en correos electrónicos, acuerdos de asociación y políticas gubernamentales mostraron resultados iniciales de redacción aceptables.

Este enfoque ofrece una alternativa que ahorra significativamente el tiempo para los usuarios que necesitan realizar tareas de redacción contextualmente conscientes localmente sin depender de APIs propietarias en la nube.