O NanoI2V é um projeto de código aberto que implementa um modelo de geração de imagem para vídeo do zero, com o objetivo de fornecer uma referência limpa e educacional para técnicas modernas de geração de vídeo. O repositório prioriza a legibilidade e a reprodutibilidade em vez da complexidade encontrada na maioria dos projetos de ponta.

  • Implementa componentes centrais de forma modular usando PyTorch.
  • Abrange arquiteturas baseadas em Transformer e métodos de treinamento de difusão ou flow-matching.
  • Fornece componentes independentes e modificáveis para experimentação com o pipeline de geração.
  • Foca em explicar os blocos de construção em vez de envolver modelos black-box existentes.

O projeto foi projetado para ajudar pesquisadores e estudantes a entender como as peças da geração de vídeo se encaixam, evitando milhares de linhas de código do framework.