Stability AI внесла новшество в область генеративных видеомоделей, выпустив Stable Video Diffusion. Эта модель, по заявлениям компании, превосходит своих коммерческих конкурентов, таких как RunwayML и Pika Labs, в исследованиях предпочтений пользователей. Основываясь на популярной модели Stable Diffusion, Stable Video Diffusion представляет собой модель с открытым исходным кодом, способную генерировать видео.
Stable Video Diffusion выпущена в двух вариантах, каждый из которых может генерировать от 14 до 25 изображений с возможностью настройки частоты кадров от 3 до 30 в секунду. Процесс обучения модели включал три этапа: начиная с предварительного обучения текст-в-изображение, затем обучение на большом наборе данных видео низкого разрешения, и завершаясь тонкой настройкой на меньшем наборе данных видео высокого разрешения.
На данный момент компания выпустила только две модели изображение-в-видео в качестве исследовательской версии, а функционал текст-в-видео планируется добавить позже через веб-интерфейс. В исследованиях, проведенных Stability AI, Stable Video Diffusion показала лучшие результаты по сравнению с RunwayML и Pika Labs, особенно в плане визуального качества и соответствия заданному запросу.
Модель разработана таким образом, чтобы легко адаптироваться к различным задачам, включая создание многовидовых синтезов из одного изображения. Stability AI планирует развивать экосистему моделей, построенных на основе этой технологии. В настоящее время Stable Video Diffusion доступна как исследовательская версия на Github, и компания намерена собирать отзывы для улучшения модели перед её окончательным выпуском. Веса модели доступны на HuggingFace.
В дополнение к выпуску исследовательской версии, Stability AI открыла список ожидания для нового веб-инструмента с интерфейсом текст-в-видео, который облегчит практическое применение Stable Video Diffusion в различных областях, включая рекламу, образование и развлечения. Компания также недавно выпустила открытые модели для 3D-генерации, аудиогенерации и текстовой генерации с помощью LLM (модели большого языкового моделирования).