Новая модель языка зрения PaLI-3 компании Google достигла производительности моделей, которые в 10 раз больше

24.10.2023 16:35

Исследователи из Google Research и Google DeepMind представили PaLI-3 – модель языка зрения (VLM), которая меньше, быстрее и мощнее аналогичных моделей в десять раз большего размера.

PaLI-3, модель языка зрения с 5 миллиардами параметров, способная обрабатывать изображения и язык, превзошла модели в десять раз большего размера в нескольких мультимодальных тестах, утверждает исследовательская группа.

VLM могут отвечать на вопросы об изображениях, описывать видео, распознавать объекты или читать текст на изображениях. OpenAI предлагает такой VLM в GPT-4-Vision, и такие компании, как Nvidia, также рассматривают VLM в качестве важного компонента для будущих промышленных приложений ИИ.

Масштабирование повышает производительность VLM

Как правило, VLM состоят из предварительно обученной модели изображения, которая научилась ассоциировать текст с изображениями, и языковой модели. Архитектура PaLI-3, следуя примеру своих предшественников, включает в себя трансформатор зрения, который кодирует изображение в лексемы. Эти лексемы вместе с текстом передаются в трансформатор кодировщика-декодировщика, который выдает текст.

Компания Google на примере своих предшественников PaLI и PaLI-X показала, что, хотя масштабируемый преобразователь зрения не обязательно дает лучшие результаты в задачах, связанных только с изображениями, таких как ImageNet, он может обеспечить значительный скачок производительности в мультимодальных задачах, таких как ответы на вопросы по изображениям. В PaLI-X, Google масштабировался до 55 млрд. параметров.

PaLI-3 от Google использует знакомую архитектуру с новым методом обучения

Если в PaLI-X Google использует кодер JFT, специализированный для классификации изображений, то в PaLI-3 применяется контрастный предварительно обученный трансформатор зрения (SigLIP), аналогичный CLIP. ViT имеет всего 2 млрд. параметров, а вместе с языковой моделью PaLI-3 – всего 5 млрд. параметров.

По словам исследователей, такие небольшие модели более практичны для обучения и развертывания, более экологичны и позволяют ускорить исследовательские циклы при разработке моделей. Удобно и то, что, несмотря на малый размер, PaLI-3 демонстрирует результаты наравне с лучшими современными VLM в более чем 10 эталонных тестах преобразования изображения в речь, а также – несмотря на то, что она не обучалась на видеоданных – достигает новых высот в тестах, где VLM должны отвечать на вопросы о видео.

PaLI-3 может позволить создать новое поколение более крупных моделей

Однако, как это часто бывает, тенденция будет направлена на создание более крупных моделей, поскольку высокая производительность PaLI-3, несмотря на его небольшой размер, демонстрирует потенциал метода SigLIP, используемого для обучения трансформатора зрения на неструктурированных веб-данных. Учитывая доступность таких неструктурированных мультимодальных данных, вполне вероятно, что в скором времени Google обучит более крупную версию PaLI-3.

“Мы считаем, что PaLI-3, имея всего 5B параметров, возрождает исследования фундаментальных частей сложных VLM и может послужить топливом для нового поколения масштабируемых моделей”, – пишет команда.

Автор:
SEO-специалист, автор новостей по ИИ

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

telegram
Обратная связь
Свяжитесь с нами
Реквизиты

ИНН: 772578776588
ОГРН: 315774600103615
ОКПО: 0194004627
ОКТМО: 45914000000
ОКАТО: 45296559000
р/с: 40802810300310000244
в АКБ «БАНК МОСКВЫ» (ОАО) отделение «Перовское»
к/с: 30101810500000000219
БИК: 044525219

Фактический адрес: г. Москва, шоссе Энтузиастов, дом 56, строение 26, офис 304

Юридический адрес: 115191, г. Москва, 4-й Рощинский проезд д.7/16