В данной статье представлен фреймворк для перевода правительственных документов на маратхи на английский язык, который сохраняет точность макета и структурную целостность, устраняя ограничения существующих систем, игнорирующих форматирование. Система объединяет распознавание текста с учетом макета (OCR), извлечение текста на основе координат, перевод с помощью LLM и реконструкцию HTML для обеспечения пространственного выравнивания и иерархической согласованности.

  • Интегрирует OCR с учетом макета и извлечение текста на основе координат для точной обработки текста.
  • Использует большие языковые модели для перевода, соблюдая ограничения пространственного выравнивания.
  • Восстанавливает документы через HTML-представления для сохранения иерархических элементов и макета.
  • Продемонстрировала улучшение структурного сохранения, связности перевода и терминологической согласованности на реальных правительственных PDF-документах на маратхи по сравнению с традиционными конвейерами.

Фреймворк способствует созданию масштабируемых решений для многоязычной доступности в сфере электронных правительств и обработки административных документов, обеспечивая сквозное преобразование документов.