Новая модель языка зрения PaLI-3 компании Google достигла производительности моделей, которые в 10 раз больше

Исследователи из Google Research и Google DeepMind представили PaLI-3 – модель языка зрения (VLM), которая меньше, быстрее и мощнее аналогичных моделей в десять раз большего размера.

PaLI-3, модель языка зрения с 5 миллиардами параметров, способная обрабатывать изображения и язык, превзошла модели в десять раз большего размера в нескольких мультимодальных тестах, утверждает исследовательская группа.

VLM могут отвечать на вопросы об изображениях, описывать видео, распознавать объекты или читать текст на изображениях. OpenAI предлагает такой VLM в GPT-4-Vision, и такие компании, как Nvidia, также рассматривают VLM в качестве важного компонента для будущих промышленных приложений ИИ.

Масштабирование повышает производительность VLM

Как правило, VLM состоят из предварительно обученной модели изображения, которая научилась ассоциировать текст с изображениями, и языковой модели. Архитектура PaLI-3, следуя примеру своих предшественников, включает в себя трансформатор зрения, который кодирует изображение в лексемы. Эти лексемы вместе с текстом передаются в трансформатор кодировщика-декодировщика, который выдает текст.

Компания Google на примере своих предшественников PaLI и PaLI-X показала, что, хотя масштабируемый преобразователь зрения не обязательно дает лучшие результаты в задачах, связанных только с изображениями, таких как ImageNet, он может обеспечить значительный скачок производительности в мультимодальных задачах, таких как ответы на вопросы по изображениям. В PaLI-X, Google масштабировался до 55 млрд. параметров.

PaLI-3 от Google использует знакомую архитектуру с новым методом обучения

Если в PaLI-X Google использует кодер JFT, специализированный для классификации изображений, то в PaLI-3 применяется контрастный предварительно обученный трансформатор зрения (SigLIP), аналогичный CLIP. ViT имеет всего 2 млрд. параметров, а вместе с языковой моделью PaLI-3 – всего 5 млрд. параметров.

По словам исследователей, такие небольшие модели более практичны для обучения и развертывания, более экологичны и позволяют ускорить исследовательские циклы при разработке моделей. Удобно и то, что, несмотря на малый размер, PaLI-3 демонстрирует результаты наравне с лучшими современными VLM в более чем 10 эталонных тестах преобразования изображения в речь, а также – несмотря на то, что она не обучалась на видеоданных – достигает новых высот в тестах, где VLM должны отвечать на вопросы о видео.

PaLI-3 может позволить создать новое поколение более крупных моделей

Однако, как это часто бывает, тенденция будет направлена на создание более крупных моделей, поскольку высокая производительность PaLI-3, несмотря на его небольшой размер, демонстрирует потенциал метода SigLIP, используемого для обучения трансформатора зрения на неструктурированных веб-данных. Учитывая доступность таких неструктурированных мультимодальных данных, вполне вероятно, что в скором времени Google обучит более крупную версию PaLI-3.

“Мы считаем, что PaLI-3, имея всего 5B параметров, возрождает исследования фундаментальных частей сложных VLM и может послужить топливом для нового поколения масштабируемых моделей”, – пишет команда.

Автор:

Сергей Зуйков

SEO-специалист, автор новостей по ИИ

Все статьи этого автора

Последние статьи автора:

Благодаря искусственному интеллекту, теперь можно нарисовать приложение вместо того, чтобы писать его код

Добавить комментарий Отменить ответ

Привлечение клиентов с помощью интернет-маркетинга

Смотрите также:

22 Апр 2024 687

Новая модель языка зрения PaLI-3 компании Google достигла производительности моделей, которые в 10 раз больше

Масштабирование повышает производительность VLM

PaLI-3 от Google использует знакомую архитектуру с новым методом обучения

PaLI-3 может позволить создать новое поколение более крупных моделей

Добавить комментарий Отменить ответ

Разработка сайтов

Контекстная реклама

Поисковая оптимизация

Идеи для бизнеса в сфере искусства и творчества

Как накрутить подписчиков в ВК в 2024

Личный бренд – почему важно создать и развивать?