В данной статье представлен фреймворк для перевода правительственных документов на маратхи на английский язык, который сохраняет точность макета и структурную целостность, устраняя ограничения существующих систем, игнорирующих форматирование. Система объединяет распознавание текста с учетом макета (OCR), извлечение текста на основе координат, перевод с помощью LLM и реконструкцию HTML для обеспечения пространственного выравнивания и иерархической согласованности.
- Интегрирует OCR с учетом макета и извлечение текста на основе координат для точной обработки текста.
- Использует большие языковые модели для перевода, соблюдая ограничения пространственного выравнивания.
- Восстанавливает документы через HTML-представления для сохранения иерархических элементов и макета.
- Продемонстрировала улучшение структурного сохранения, связности перевода и терминологической согласованности на реальных правительственных PDF-документах на маратхи по сравнению с традиционными конвейерами.
Фреймворк способствует созданию масштабируемых решений для многоязычной доступности в сфере электронных правительств и обработки административных документов, обеспечивая сквозное преобразование документов.