Google Deepmind представил генератор изображений с искусственным интеллектом — Imagen 2

14.12.2023 17:56

Google Deepmind представил свою новейшую разработку в области искусственного интеллекта – генератор изображений Imagen 2. Этот инструмент, основанный на широко используемой технологии диффузии, обещает создавать изображения высочайшего качества и фотореалистичности, точно следуя указаниям пользователя.

Одним из ключевых усовершенствований Imagen 2 является более точное следование указаниям. Для этого в обучающий набор данных были включены дополнительные описания, что позволило системе лучше понимать различные стили меток и глубже осмысливать разнообразные запросы. Это привело к улучшению взаимосвязей между изображениями и текстом, что, в свою очередь, способствует более глубокому пониманию контекста и нюансов в запросах. Подобный метод был использован OpenAI для улучшения работы DALL-E 3.

Благодаря прогрессу в наборе данных и модели, Google заявляет, что Imagen 2 добилась значительных улучшений во многих областях, где системы преобразования текста в изображение часто испытывают трудности. Это включает в себя создание реалистичных человеческих рук и лиц, при этом устраняя типичные недостатки изображений, созданных искусственным интеллектом.

Для улучшения качества изображений была разработана эстетическая модель, основанная на человеческих предпочтениях в отношении качественных атрибутов, таких как хорошее освещение, композиция, экспозиция и резкость. Каждому изображению присваивался эстетический балл, что помогало Imagen 2 уделять больше внимания изображениям в обучающем наборе данных, соответствующим человеческим предпочтениям.

Imagen 2 включает в себя функции редактирования изображений, такие как внутренняя и внешняя обработка, а также гибкое управление стилем. Эти техники позволяют пользователям вставлять новый контент непосредственно в оригинальное изображение или расширять оригинальное изображение за его пределы. Такие функции являются необходимыми для конкуренции с такими инструментами, как Generative Fill от Adobe Firefly или Zoom-Out от Midjourney.

На данный момент Imagen 2 доступен для разработчиков и клиентов облачных сервисов через Imagen API в Google Cloud Vertex AI. Команда Google Arts and Culture использует эту технологию в своем эксперименте Cultural Icons.

Однако Imagen 2 пока не достаточно безопасен для личного использования. Google стремится минимизировать потенциальные риски и проблемы. От дизайна до реализации компания приняла меры безопасности, но планирует провести дополнительное тестирование. Одной из мер безопасности является SynthID, набор инструментов для маркировки и идентификации контента, созданного искусственным интеллектом. Он позволяет авторизованным клиентам Google Cloud вставлять невидимый цифровой водяной знак непосредственно в пиксели изображения, не влияя на качество изображения. SynthID сохраняет водяной знак даже если изображение фильтруется, обрезается или сжимается во время хранения.

Кроме того, Google заявляет, что внедрила технические меры предосторожности для ограничения проблемного вывода, такого как насильственный, оскорбительный или явно сексуально контент. Было проведено тестирование безопасности как на обучающих данных, так и на запросах и выводе, генерируемых системой в процессе создания.

Imagen 2 является ответом на последнюю модель изображений от OpenAI, DALL-E 3, которая привлекает внимание не только качеством изображений, но и легкостью доступа через ChatGPT. Google пока не объявила, как планирует предоставить Imagen 2 широкой публике, но интеграция с Bard кажется логичной.

Новая версия следует за первым поколением Imagen, которое было анонсировано в мае 2022 года. В то время Google все еще имела небольшое технологическое преимущество над OpenAI, которое ее конкурент уже давно нагнал.

Imagen 2 также может стать основой для другого видео-ИИ от Google, так же как Imagen послужил основой для Imagen Video, или как Meta* использовала свой генератор изображений Emu для Emu Video.

* – компания Meta признана экстремистской и заблокирована в РФ

Автор:
SEO-специалист, автор новостей по ИИ

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

telegram
Обратная связь
Свяжитесь с нами
Реквизиты

ИНН: 772578776588
ОГРН: 315774600103615
ОКПО: 0194004627
ОКТМО: 45914000000
ОКАТО: 45296559000
р/с: 40802810300310000244
в АКБ «БАНК МОСКВЫ» (ОАО) отделение «Перовское»
к/с: 30101810500000000219
БИК: 044525219

Фактический адрес: г. Москва, шоссе Энтузиастов, дом 56, строение 26, офис 304

Юридический адрес: 115191, г. Москва, 4-й Рощинский проезд д.7/16