Исследователи из Google Research и Google DeepMind представили PaLI-3 – модель языка зрения (VLM), которая меньше, быстрее и мощнее аналогичных моделей в десять раз большего размера.
PaLI-3, модель языка зрения с 5 миллиардами параметров, способная обрабатывать изображения и язык, превзошла модели в десять раз большего размера в нескольких мультимодальных тестах, утверждает исследовательская группа.
VLM могут отвечать на вопросы об изображениях, описывать видео, распознавать объекты или читать текст на изображениях. OpenAI предлагает такой VLM в GPT-4-Vision, и такие компании, как Nvidia, также рассматривают VLM в качестве важного компонента для будущих промышленных приложений ИИ.
Масштабирование повышает производительность VLM
Как правило, VLM состоят из предварительно обученной модели изображения, которая научилась ассоциировать текст с изображениями, и языковой модели. Архитектура PaLI-3, следуя примеру своих предшественников, включает в себя трансформатор зрения, который кодирует изображение в лексемы. Эти лексемы вместе с текстом передаются в трансформатор кодировщика-декодировщика, который выдает текст.
Компания Google на примере своих предшественников PaLI и PaLI-X показала, что, хотя масштабируемый преобразователь зрения не обязательно дает лучшие результаты в задачах, связанных только с изображениями, таких как ImageNet, он может обеспечить значительный скачок производительности в мультимодальных задачах, таких как ответы на вопросы по изображениям. В PaLI-X, Google масштабировался до 55 млрд. параметров.
PaLI-3 от Google использует знакомую архитектуру с новым методом обучения
Если в PaLI-X Google использует кодер JFT, специализированный для классификации изображений, то в PaLI-3 применяется контрастный предварительно обученный трансформатор зрения (SigLIP), аналогичный CLIP. ViT имеет всего 2 млрд. параметров, а вместе с языковой моделью PaLI-3 – всего 5 млрд. параметров.
По словам исследователей, такие небольшие модели более практичны для обучения и развертывания, более экологичны и позволяют ускорить исследовательские циклы при разработке моделей. Удобно и то, что, несмотря на малый размер, PaLI-3 демонстрирует результаты наравне с лучшими современными VLM в более чем 10 эталонных тестах преобразования изображения в речь, а также – несмотря на то, что она не обучалась на видеоданных – достигает новых высот в тестах, где VLM должны отвечать на вопросы о видео.
PaLI-3 может позволить создать новое поколение более крупных моделей
Однако, как это часто бывает, тенденция будет направлена на создание более крупных моделей, поскольку высокая производительность PaLI-3, несмотря на его небольшой размер, демонстрирует потенциал метода SigLIP, используемого для обучения трансформатора зрения на неструктурированных веб-данных. Учитывая доступность таких неструктурированных мультимодальных данных, вполне вероятно, что в скором времени Google обучит более крупную версию PaLI-3.
“Мы считаем, что PaLI-3, имея всего 5B параметров, возрождает исследования фундаментальных частей сложных VLM и может послужить топливом для нового поколения масштабируемых моделей”, – пишет команда.