В рамках последнего релиза были представлены две модели: большая с 14 миллиардами параметров и меньшая с 1.3 миллиардами параметров. Обе модели способны генерировать видео в разрешении 540p (544 x 960) или 720p (720 x 1280). В будущем планируется выпустить промежуточную модель с 5 миллиардами параметров и модель для управления камерой.
Модель на 1.3 миллиарда и 5 миллиардов параметров может создавать видео длиной до 97 кадров, в то время как модель на 14 миллиардов параметров способна генерировать видео до 121 кадра. Одной из ключевых особенностей данного релиза является функция Infinite Length или Diffusion Forcing, которая позволяет создавать видео любой длины. Эта функция реализована в виде отдельной модели с приставкой DF, которая может принимать на вход как текст, так и изображения. Однако, на данный момент, эта функция доступна только в разрешении 540p.
Для генерации видео с разрешением 540p с помощью модели на 1.3 миллиарда параметров требуется около 15 ГБ VRAM, а для видео с тем же разрешением с помощью модели на 14 миллиардов параметров требуется около 52 ГБ VRAM.
В основе модели лежит мультимодальная языковая модель, которая описывает полное видео в общих чертах, а также специализированные эксперты, которые описывают отдельные кадры. Разработчики также выпустили отдельную модель для аннотирования видео данных — SkyCaptioner-V1.
На основе 30-секундных примеров, опубликованных в Twitter, качество видео хорошее, и динамичность на длинной дистанции сохраняется на высоком уровне. Однако, пользователи отмечают, что многие видео повторяются, а на сайте не указывается, используется ли V2 или предыдущая модель.
Пользователь Kijai уже создал веса для модели. Он пытался запустить её на Windows с использованием 4090, но обнаружил, что для этого требуется triton. После установки triton, модель всё равно не заработала.