NanoI2V: Construir un modelo de Imagen a Video desde cero

NanoI2V es un proyecto de código abierto que implementa un modelo de generación de video a partir de imágenes desde cero, con el objetivo de proporcionar una referencia limpia y educativa para las técnicas modernas de generación de video. El repositorio prioriza la legibilidad y la reproducibilidad sobre la complejidad encontrada en la mayoría de los proyectos de vanguardia.

Implementa componentes centrales de manera modular usando PyTorch.
Cubre arquitecturas basadas en Transformer y métodos de entrenamiento de difusión o flow-matching.
Proporciona componentes independientes y modificables para experimentar con la tubería de generación.
Se centra en explicar los bloques de construcción en lugar de envolver modelos de caja negra existentes.

El proyecto está diseñado para ayudar a investigadores y estudiantes a entender cómo encajan las piezas de la generación de video, evitando miles de líneas de código del framework.