Сохранение структуры документа при переводе с помощью многоэтапного конвейера LLM: исследование на примере маратхи
В данной статье представлен фреймворк для перевода правительственных документов на маратхи на английский язык, который сохраняет точность макета и структурную целостность, устраняя ограничения существующих систем, игнорирующих форматирование. Система объединяет распознавание текста с учетом макета (OCR), извлечение текста на основе координат, перевод с помощью LLM и реконструкцию HTML для обеспечения пространственного выравнивания и иерархической согласованности.