Локальный режим превращает изображение в милого управляемого персонажа, за которого можно играть

Автор представляет версию модели на 800M параметров, которая преобразует изображения в управляемых персонажей, предназначенную для комфортной работы на потребительских GPU. Эта итерация увеличивает контекст до 12 латентных кадров и повышает стабильность при сохранении высокой производительности, достигая более 60 кадров в секунду на RTX 5090.

Архитектура сохраняет предыдущий дизайн, но имеет утолщенный MLP и де-ноизер, обученный с нуля с использованием диффузионного принуждения.
Модель использует каузальную диффузию, где LLM выбирает один токен за каждый прямой проход, сохраняя контекст в KV-кэше.
Скользящее окно удаляет промежуточные кадры для управления KV-кэшем, поскольку обучение ограничивалось примерно 20-30 латентными кадрами.
Хотя согласованность остается низкой, автор планирует решить эту проблему в будущих итерациях.

Работа демонстрирует метод локальной генерации и управления анимацией персонажей на доступном оборудовании, с дальнейшими обновлениями, которые будут публиковаться в сабреддите lucidmlx.