Traducción de documentos que preserva la estructura mediante un pipeline de LLM multi-etapa: Un estudio de caso en maratí
Este artículo presenta un marco para traducir documentos gubernamentales de maratí a inglés que mantiene la fidelidad del diseño y la integridad estructural, abordando las limitaciones de los sistemas existentes que descuidan el formato. El sistema integra OCR consciente del diseño, extracción de texto basada en coordenadas, traducción con LLM y reconstrucción HTML para garantizar la alineación espacial y la consistencia jerárquica.