Автор демонстрирует, что локальные модели, в частности Qwen 3.6 27B, способны выполнять сквозное удаление конфиденциальных данных из документов при оптимизации с использованием более высокого уровня квантования и агентного интерфейса на основе фреймворка PI.
- Система использует Qwen 3.6 27B, квантованную до Q6_K_XL, с контекстным окном в 114k токенов, что требует 40 ГБ видеопамяти.
- Графический интерфейс на базе Gradio позволяет пользователям загружать документы и задавать агенту пользовательские инструкции по удалению данных.
- На стороне сервера применяются инструменты OCR, такие как Tesseract и PaddleOCR, а также spaCy для выявления персональных данных (PII).
- Возможности VLM используются для обнаружения лиц и подписей в отсканированных документах.
- Тестирование на письмах, партнерских соглашениях и правительственных политиках показало приемлемые начальные результаты удаления конфиденциальных данных.
Этот подход предлагает значительную экономию времени для пользователей, которым необходимо выполнять задачи контекстно-зависимого удаления данных локально, без reliance на проприетарные облачные API.