El autor presenta la versión de 800M de un modelo que convierte imágenes en personajes controlables, diseñado para ejecutarse cómodamente en GPUs de consumo. Esta iteración aumenta el contexto a 12 cuadros latentes y mejora la estabilidad mientras mantiene un alto rendimiento, logrando más de 60 fps en una RTX 5090.

  • La arquitectura conserva el diseño anterior pero cuenta con un MLP más grueso y un des-ruidor entrenado desde cero con forzamiento de difusión.
  • El modelo utiliza difusión causal donde los LLM muestrean un token por pasada hacia adelante, almacenando el contexto en la caché KV.
  • Una ventana deslizante elimina cuadros intermedios para gestionar la caché KV, ya que el entrenamiento se limitó a aproximadamente 20-30 cuadros latentes.
  • Aunque la consistencia sigue siendo pobre, el autor tiene como objetivo abordar esto en futuras iteraciones.

El trabajo demuestra un método para generar y controlar animaciones de personajes localmente en hardware accesible, con actualizaciones adicionales compartidas a través del subreddit lucidmlx.