В статье описывается инженерный подход к созданию локального ИИ-ассистента, который преобразует сырые скриншоты и расшифровки встреч в данные, доступные для запросов, используя только модели, эффективно работающие на ноутбуках. Система использует фреймворк Apple Vision для OCR, дистилляцию во время простоя модели Gemma 4B и гибридный поиск для избежания узких мест производительности.

  • Локальное OCR через фреймворк Apple Vision предотвращает прямую обработку пикселей LLM, улучшая скорость и точность.
  • Модель Gemma класса 4B суммирует скриншоты в заметки по проектам во время простоя, сохраняя отзывчивость активных приложений.
  • Поиск объединяет SQLite FTS для лексического поиска с LanceDB для семантического поиска, чтобы захватывать как точные идентификаторы, так и перефразированный контент.
  • Решение опирается на точное извлечение контекста вместо использования более крупных моделей, решая типичные проблемы локальных ИИ-ассистентов.

Эта архитектура позволяет пользователям поддерживать персонального помощника с "памятью" на macOS + Apple Silicon без разряда батареи и отвлечения GPU-ресурсов у активных задач.