Un usuario reemplazó Google Vision en una canalización de procesamiento de recibos con el modelo local Qwen3.6-35B-A3B ejecutándose en una GPU RTX 3060. El experimento demostró que la configuración local podía analizar correctamente los campos clave de recibos japoneses en formato JSON.
- Hardware: RTX 3060 con 12GB de VRAM, utilizando llama.cpp y cuantización GGUF de Qwen3.6-35B-A3B con objetivo de 12GB.
- Precisión: Extracción consistente de campos de tienda, fecha, subtotal, impuesto y total en aproximadamente 30 recibos japoneses.
- Rendimiento: Tiempo promedio de procesamiento de ~31.75 segundos por recibo con un uso pico de VRAM de ~11.06 GiB.
Este enfoque ofrece una alternativa local viable a los servicios OCR basados en la nube para tareas de extracción de documentos sin requerir dependencias de API externas.