Неограниченный OCR вводит внимание сдвига окна ссылки (R-SWA), чтобы имитировать человеческую рабочую память, позволяя транскрибировать длинные документы без роста использования памяти. Заменяя слои внимания декодера в DeepSeek OCR, R-SWA сохраняет постоянный кэш K и V и достигает полной обработки документа за один проход вперед при ограничении в 32K токенов. R-SWA также применим к задачам аудио-распознавания и перевода.
Неограниченный OCR: парсинг, похожий на человеческий, с постоянным использованием памяти
Переведено с English → Русский