Stability AI выпустил новую модель изображений и рабочий процесс для создания улучшенных 3D-моделей. Новая модель называется Stable Zero123 и является новой версией одноименной серии моделей. Stable Zero123 не создает 3D-модели напрямую, а является центральным элементом генеративного рабочего процесса, который начинается с текстового запроса и заканчивается 3D-моделью. Конкретно Zero123 может взять изображение объекта и сгенерировать несколько новых изображений этого объекта с разных ракурсов.
Эти панорамные изображения затем могут быть использованы другой моделью, например, для условного формирования NeRF на этих изображениях и, в конечном итоге, для генерации 3D-модели.
Stable Zero123 была обучена на огромном наборе данных 3D-моделей. По словам Stability AI, Stable Zero123 должна достигать значительно лучших результатов, чем ее предшественник Zero123-XL. Это стало возможным в первую очередь благодаря улучшенному набору данных для обучения. Для этого стартап эксклюзивно отфильтровал высококачественные 3D-модели из набора данных Objaverse. Во время обучения и вывода Stable Zero123 получает не только изображения, но и оценочные углы камеры, которые поддерживают предсказания модели.
В сочетании с другими улучшениями, такими как возможность обучения большими партиями, Stability AI говорит, что это привело к 40-кратному увеличению эффективности обучения по сравнению с Zero123-XL.
Stable Zero123 выпущена только для исследовательских целей и не предназначена для коммерческого использования. Те, кто заинтересован в использовании 3D-решений Stability AI для коммерческих продуктов или целей, должны напрямую связаться с компанией.
Для создания 3D-объектов с помощью Stable Zero123 команда выпускает модель с инструкциями на HuggingFace. Требуются фреймворк threestudio и модель. Хотя требования к VRAM для генерации новых видов находятся на уровне Stable Diffusion 1.5, генерация 3D-объектов занимает значительно больше времени, и рекомендуется использовать 24 гигабайта VRAM.
Stable Zero123 также доступна через Stable 3D Private Preview для генерации текста в 3D.