NanoI2V: Создание модели Image-to-Video с нуля

NanoI2V — это проект с открытым исходным кодом, реализующий модель генерации видео из изображений с нуля, цель которого — предоставить чистую и образовательную ссылку на современные методы генерации видео. В репозитории приоритет отдается читаемости и воспроизводимости, а не сложности, присущей большинству современных проектов.

Реализует основные компоненты модульным способом с использованием PyTorch.
Охватывает архитектуры на основе Transformer и методы обучения диффузии или flow-matching.
Предоставляет независимые, изменяемые компоненты для экспериментов с конвейером генерации.
Фокусируется на объяснении строительных блоков, а не на обертывании существующих моделей типа черного ящика.

Проект разработан, чтобы помочь исследователям и студентам понять, как части генерации видео складываются вместе, избегая тысяч строк кода фреймворка.