NanoI2V: Image-to-Video 모델을 처음부터 구축하기

NanoI2V은 Image-to-Video 생성 모델을 처음부터 구현하는 오픈소스 프로젝트로, 최신 비디오 생성 기술에 대한 깔끔하고 교육적인 참조를 제공하는 것을 목표로 합니다. 이 저장소는 대부분의 최신(SOTA) 프로젝트에서 발견되는 복잡성보다 가독성과 재현성을 우선시합니다.

PyTorch를 사용하여 핵심 구성 요소를 모듈 방식으로 구현합니다.
Transformer 기반 아키텍처와 확산(diffusion) 또는 흐름 매칭(flow-matching) 학습 방법을 다룹니다.
생성 파이프라인 실험을 위해 독립적이고 수정 가능한 구성 요소를 제공합니다.
기존 블랙박스 모델을 래핑하는 대신 빌딩 블록에 대한 설명에 중점을 둡니다.

이 프로젝트는 수천 줄의 프레임워크 코드를 피함으로써 연구자와 학생이 비디오 생성의 구성 요소들이 어떻게 함께 작동하는지 이해하는 데 도움이 되도록 설계되었습니다.