El modo de ejecución local convierte una imagen en un personaje adorable y controlable que puedes usar

El autor presenta la versión de 800M de un modelo que convierte imágenes en personajes controlables, diseñado para ejecutarse cómodamente en GPUs de consumo. Esta iteración aumenta el contexto a 12 cuadros latentes y mejora la estabilidad mientras mantiene un alto rendimiento, logrando más de 60 fps en una RTX 5090.

La arquitectura conserva el diseño anterior pero cuenta con un MLP más grueso y un des-ruidor entrenado desde cero con forzamiento de difusión.
El modelo utiliza difusión causal donde los LLM muestrean un token por pasada hacia adelante, almacenando el contexto en la caché KV.
Una ventana deslizante elimina cuadros intermedios para gestionar la caché KV, ya que el entrenamiento se limitó a aproximadamente 20-30 cuadros latentes.
Aunque la consistencia sigue siendo pobre, el autor tiene como objetivo abordar esto en futuras iteraciones.

El trabajo demuestra un método para generar y controlar animaciones de personajes localmente en hardware accesible, con actualizaciones adicionales compartidas a través del subreddit lucidmlx.