NanoI2V est un projet open-source qui implémente un modèle de génération Image-to-Video à partir de zéro, visant à fournir une référence propre et éducative pour les techniques modernes de génération vidéo. Le dépôt privilégie la lisibilité et la reproductibilité par rapport à la complexité trouvée dans la plupart des projets de pointe.

  • Implémente les composants core de manière modulaire en utilisant PyTorch.
  • Couvre les architectures basées sur Transformer ainsi que les méthodes d'entraînement par diffusion ou flow-matching.
  • Fournit des composants indépendants et modifiables pour expérimenter avec le pipeline de génération.
  • Se concentre sur l'explication des blocs de construction plutôt que sur l'enveloppement de modèles black-box existants.

Le projet est conçu pour aider les chercheurs et les étudiants à comprendre comment les pièces de la génération vidéo s'assemblent en évitant des milliers de lignes de code de framework.