NanoI2V 是一个开源项目,从零开始实现图像到视频的生成模型,旨在为现代视频生成技术提供清晰且具教育意义的参考。该仓库优先考虑可读性和可复现性,而非大多数前沿项目中常见的复杂性。
- 使用 PyTorch 以模块化方式实现核心组件。
- 涵盖基于 Transformer 的架构以及扩散或 flow-matching 训练方法。
- 提供独立、可修改的组件,用于对生成流水线进行实验。
- 侧重于解释构建模块,而非封装现有的黑盒模型。
该项目旨在帮助研究人员和学生理解视频生成的各个部分如何组合在一起,同时避免数千行框架代码。