NanoI2V est un projet open-source qui implémente un modèle de génération Image-to-Video à partir de zéro, visant à fournir une référence propre et éducative pour les techniques modernes de génération vidéo. Le dépôt privilégie la lisibilité et la reproductibilité par rapport à la complexité trouvée dans la plupart des projets de pointe.
- Implémente les composants core de manière modulaire en utilisant PyTorch.
- Couvre les architectures basées sur Transformer ainsi que les méthodes d'entraînement par diffusion ou flow-matching.
- Fournit des composants indépendants et modifiables pour expérimenter avec le pipeline de génération.
- Se concentre sur l'explication des blocs de construction plutôt que sur l'enveloppement de modèles black-box existants.
Le projet est conçu pour aider les chercheurs et les étudiants à comprendre comment les pièces de la génération vidéo s'assemblent en évitant des milliers de lignes de code de framework.