Stability AI представляет Stable Video Diffusion – модель для генерации видео с открытым исходным кодом

22.11.2023 16:12

Stability AI внесла новшество в область генеративных видеомоделей, выпустив Stable Video Diffusion. Эта модель, по заявлениям компании, превосходит своих коммерческих конкурентов, таких как RunwayML и Pika Labs, в исследованиях предпочтений пользователей. Основываясь на популярной модели Stable Diffusion, Stable Video Diffusion представляет собой модель с открытым исходным кодом, способную генерировать видео.

Stable Video Diffusion выпущена в двух вариантах, каждый из которых может генерировать от 14 до 25 изображений с возможностью настройки частоты кадров от 3 до 30 в секунду. Процесс обучения модели включал три этапа: начиная с предварительного обучения текст-в-изображение, затем обучение на большом наборе данных видео низкого разрешения, и завершаясь тонкой настройкой на меньшем наборе данных видео высокого разрешения.

На данный момент компания выпустила только две модели изображение-в-видео в качестве исследовательской версии, а функционал текст-в-видео планируется добавить позже через веб-интерфейс. В исследованиях, проведенных Stability AI, Stable Video Diffusion показала лучшие результаты по сравнению с RunwayML и Pika Labs, особенно в плане визуального качества и соответствия заданному запросу.

Модель разработана таким образом, чтобы легко адаптироваться к различным задачам, включая создание многовидовых синтезов из одного изображения. Stability AI планирует развивать экосистему моделей, построенных на основе этой технологии. В настоящее время Stable Video Diffusion доступна как исследовательская версия на Github, и компания намерена собирать отзывы для улучшения модели перед её окончательным выпуском. Веса модели доступны на HuggingFace.

В дополнение к выпуску исследовательской версии, Stability AI открыла список ожидания для нового веб-инструмента с интерфейсом текст-в-видео, который облегчит практическое применение Stable Video Diffusion в различных областях, включая рекламу, образование и развлечения. Компания также недавно выпустила открытые модели для 3D-генерации, аудиогенерации и текстовой генерации с помощью LLM (модели большого языкового моделирования).

Автор:
SEO-специалист, автор новостей по ИИ

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

telegram
Обратная связь
Свяжитесь с нами
Реквизиты

ИНН: 772578776588
ОГРН: 315774600103615
ОКПО: 0194004627
ОКТМО: 45914000000
ОКАТО: 45296559000
р/с: 40802810300310000244
в АКБ «БАНК МОСКВЫ» (ОАО) отделение «Перовское»
к/с: 30101810500000000219
БИК: 044525219

Фактический адрес: г. Москва, шоссе Энтузиастов, дом 56, строение 26, офис 304

Юридический адрес: 115191, г. Москва, 4-й Рощинский проезд д.7/16