Un usuario reemplazó Google Vision en una canalización de procesamiento de recibos con el modelo local Qwen3.6-35B-A3B ejecutándose en una GPU RTX 3060. El experimento demostró que la configuración local podía analizar correctamente los campos clave de recibos japoneses en formato JSON.

  • Hardware: RTX 3060 con 12GB de VRAM, utilizando llama.cpp y cuantización GGUF de Qwen3.6-35B-A3B con objetivo de 12GB.
  • Precisión: Extracción consistente de campos de tienda, fecha, subtotal, impuesto y total en aproximadamente 30 recibos japoneses.
  • Rendimiento: Tiempo promedio de procesamiento de ~31.75 segundos por recibo con un uso pico de VRAM de ~11.06 GiB.

Este enfoque ofrece una alternativa local viable a los servicios OCR basados en la nube para tareas de extracción de documentos sin requerir dependencias de API externas.