El autor presenta la versión de 800M de un modelo que convierte imágenes en personajes controlables, diseñado para ejecutarse cómodamente en GPUs de consumo. Esta iteración aumenta el contexto a 12 cuadros latentes y mejora la estabilidad mientras mantiene un alto rendimiento, logrando más de 60 fps en una RTX 5090.
- La arquitectura conserva el diseño anterior pero cuenta con un MLP más grueso y un des-ruidor entrenado desde cero con forzamiento de difusión.
- El modelo utiliza difusión causal donde los LLM muestrean un token por pasada hacia adelante, almacenando el contexto en la caché KV.
- Una ventana deslizante elimina cuadros intermedios para gestionar la caché KV, ya que el entrenamiento se limitó a aproximadamente 20-30 cuadros latentes.
- Aunque la consistencia sigue siendo pobre, el autor tiene como objetivo abordar esto en futuras iteraciones.
El trabajo demuestra un método para generar y controlar animaciones de personajes localmente en hardware accesible, con actualizaciones adicionales compartidas a través del subreddit lucidmlx.