Китайские технологические гиганты Bytedance и Alibaba представили новые ИИ-модели, способные генерировать фотореалистичные видеоклипы с анимированными людьми. Эти компании используют немного разные архитектуры, но обе основаны на моделях диффузии, которые адаптируют изображения к модели, определяющей позы, например, в танцевальной последовательности.
Bytedance разработала MagicAnimate в сотрудничестве с Show Lab Национального университета Сингапура, а Alibaba совместно с Институтом интеллектуальных вычислений создала Animate Anyone. Обе модели генерируют короткие видеоклипы танцующих людей или мультяшных персонажей из эталонного изображения и танцевальной последовательности.
Используя методы, такие как ControlNet и техники временной стабильности, видео достигают гораздо более высокой последовательности, чем другие модели текст-в-видео или изображение-в-видео, опережая текущий лучший результат бенчмарка TikTok почти на 40 процентов.
Оба метода требуют только одного изображения и одной последовательности движений для генерации видео. Это может быть реальный человек, Мона Лиза или изображение, сгенерированное ИИ. MagicAnimate от Bytedance даже может анимировать несколько людей одновременно.
Эти методы открывают новые возможности для TikTok и ИИ-инфлюенсеров, которые сегодня существуют в основном в виде статичных изображений и текста, созданного ИИ. В будущем Bytedance также может предложить эти модели непосредственно на TikTok для своих клиентов.
Код для MagicAnimate доступен на страницах проекта на Github, а демонстрация MagicAnimate также доступна. Код для Animate Anyone скоро также будет доступен на Github – команда хочет внести некоторые улучшения перед выпуском.
Разработка Bytedance и Alibaba представляет собой ИИ-модели, которые генерируют фотореалистичные видеоклипы с анимированными людьми. Эти ИИ-модели могут расширить возможности для ИИ-инфлюенсеров и в будущем могут быть предложены непосредственно на платформах, таких как TikTok.