Автор демонстрирует, что локальные модели, в частности Qwen 3.6 27B, способны выполнять сквозное удаление конфиденциальных данных из документов при оптимизации с использованием более высокого уровня квантования и агентного интерфейса на основе фреймворка PI.

  • Система использует Qwen 3.6 27B, квантованную до Q6_K_XL, с контекстным окном в 114k токенов, что требует 40 ГБ видеопамяти.
  • Графический интерфейс на базе Gradio позволяет пользователям загружать документы и задавать агенту пользовательские инструкции по удалению данных.
  • На стороне сервера применяются инструменты OCR, такие как Tesseract и PaddleOCR, а также spaCy для выявления персональных данных (PII).
  • Возможности VLM используются для обнаружения лиц и подписей в отсканированных документах.
  • Тестирование на письмах, партнерских соглашениях и правительственных политиках показало приемлемые начальные результаты удаления конфиденциальных данных.

Этот подход предлагает значительную экономию времени для пользователей, которым необходимо выполнять задачи контекстно-зависимого удаления данных локально, без reliance на проприетарные облачные API.