NanoI2V : Construire un modèle Image-to-Video à partir de zéro

NanoI2V est un projet open-source qui implémente un modèle de génération Image-to-Video à partir de zéro, visant à fournir une référence propre et éducative pour les techniques modernes de génération vidéo. Le dépôt privilégie la lisibilité et la reproductibilité par rapport à la complexité trouvée dans la plupart des projets de pointe.

Implémente les composants core de manière modulaire en utilisant PyTorch.
Couvre les architectures basées sur Transformer ainsi que les méthodes d'entraînement par diffusion ou flow-matching.
Fournit des composants indépendants et modifiables pour expérimenter avec le pipeline de génération.
Se concentre sur l'explication des blocs de construction plutôt que sur l'enveloppement de modèles black-box existants.

Le projet est conçu pour aider les chercheurs et les étudiants à comprendre comment les pièces de la génération vidéo s'assemblent en évitant des milliers de lignes de code de framework.