Pipeline de distill-on-idle para asistente de memoria en dispositivo usando modelos de 4B

El artículo detalla un enfoque de ingeniería para construir un asistente de IA local que convierte capturas de pantalla y transcripciones de reuniones en datos consultables utilizando únicamente modelos que se ejecutan eficientemente en portátiles. El sistema aprovecha el marco Vision de Apple para OCR, la distillación durante tiempos inactivos de un modelo Gemma de 4B y la recuperación híbrida para evitar cuellos de botella de rendimiento.

El OCR en dispositivo a través del marco Vision de Apple evita que el LLM procese píxeles directamente, mejorando la velocidad y la precisión.
Un modelo Gemma de clase 4B resume las capturas en notas por proyecto durante los períodos inactivos, manteniendo las aplicaciones en primer plano receptivas.
La recuperación combina SQLite FTS para búsqueda léxica con LanceDB para búsqueda semántica, capturando tanto identificadores exactos como contenido parafraseado.
La solución se basa en la recuperación de contexto ajustado en lugar de modelos más grandes, abordando fallos comunes en asistentes de IA locales.

Esta arquitectura permite a los usuarios mantener un asistente de "memoria" personal en macOS + Apple Silicon sin agotar la batería ni robar recursos GPU a tareas activas.