Este artículo presenta un marco para traducir documentos gubernamentales de maratí a inglés que mantiene la fidelidad del diseño y la integridad estructural, abordando las limitaciones de los sistemas existentes que descuidan el formato. El sistema integra OCR consciente del diseño, extracción de texto basada en coordenadas, traducción con LLM y reconstrucción HTML para garantizar la alineación espacial y la consistencia jerárquica.

  • Integra reconocimiento óptico de caracteres consciente del diseño y extracción de texto basada en coordenadas para un manejo preciso del texto.
  • Utiliza modelos de lenguaje grandes para la traducción mientras aplica restricciones de alineación espacial.
  • Reconstruye documentos mediante representaciones HTML para preservar elementos jerárquicos y el diseño.
  • Demostró una mejor preservación estructural, coherencia en la traducción y consistencia terminológica en PDFs gubernamentales reales de maratí en comparación con pipelines convencionales.

El marco contribuye hacia soluciones escalables de accesibilidad multilingüe para e-gobierno y procesamiento de documentos administrativos al habilitar la transformación de documentos de extremo a extremo.