Alibaba представила новую версию модели для генерации видео Wan 2.2

Компания Alibaba представила Wan2.2 — набор ИИ-моделей с открытым исходным кодом для создания видео. Модели построены на эффективной архитектуре Mixture-of-Experts (MoE). Благодаря этому модель потребляет значительно меньше вычислительных ресурсов по сравнению с конкурентами и позволяет лучше контролировать генерацию видео.

Alan Alves/Unsplash

В серию Wan2.2 входят модели для генерации видео из текста (T2V-A14B), из изображения (I2V-A14B) и гибридная модель (TI2V-5B). Архитектура MoE позволяет моделям с 27 млрд параметров активировать только 14 млрд за один шаг. Это сокращает вычислительные затраты почти вдвое без потери качества.

Главное преимущество для создателей — система «кинематографических» промптов. Она дает детальный контроль над освещением, временем суток, цветовой гаммой, ракурсом камеры и композицией. Модели способны генерировать сложные движения, включая мимику лиц и спортивные сцены, точно следуя инструкциям и законам физики.

Для обучения Wan2.2 Alibaba значительно расширила набор данных. Объем изображений увеличился на 65,6%, а видеоданных — на 83,2% по сравнению с предыдущей версией. Это позволило улучшить креативность и детализацию генерируемых сцен. Гибридная модель TI2V-5B способна создать 5-секундное видео в разрешении 720px за несколько минут на обычной потребительской видеокарте.

Все модели Wan2.2 доступны на Hugging Face, GitHub и платформе ModelScope. Предыдущие версии моделей Wan2.1 были скачаны более 5.4 млн раз. Это свидетельствует о высоком спросе на подобные инструменты и укрепляет позиции Alibaba как одного из лидеров в области генеративного ИИ.