Google представил демонстрационное видео своей новой языковой модели Gemini, которое оказалось постановочным, вызвав сомнения среди разработчиков и сотрудников компании относительно реальных возможностей модели. В видео, озаглавленном “Hands-on with Gemini: Interacting with multimodal AI”, Google демонстрировал впечатляющие возможности голосового взаимодействия и визуального отклика в реальном времени. Однако после демонстрации выяснилось, что голосовое взаимодействие не существовало, а демонстрация не была в реальном времени. Вместо этого Google использовал статические изображения из видео с конкретными текстовыми подсказками для получения результатов. В описании видео Google указал: “Для целей этой демонстрации задержка была уменьшена, а результаты Gemini были сокращены для краткости”.
По информации Bloomberg, Google признал, что настоящая демонстрация включала использование статических изображений из видео и текстовых подсказок, а не предсказание или реагирование Gemini на изменения в реальном времени. Вы можете ознакомиться с созданием видео на блоге разработчиков Google.
Внутренняя критика постановочной демонстрации Gemini
Согласно источникам Bloomberg и The Information, сотрудники Google выразили внутреннюю озабоченность и критику по поводу демонстрационного видео. Один из сотрудников Google заявил, что видео создает нереалистичное представление о том, насколько легко достичь впечатляющих результатов с Gemini.
Постановочная демонстрация также стала предметом шуток и мемов внутри компании, где сотрудники делились изображениями и комментариями, высмеивая различия между видео и реальной ИИ-системой.
Несмотря на споры вокруг демонстрационного видео, Google настаивает на том, что весь пользовательский ввод и вывод, показанный в видео, являются реальными, даже если видео предполагает реализацию в реальном времени, которая пока не существует.
Эли Коллинз, вице-президент по продуктам в Google DeepMind, сообщил Bloomberg, что демонстрация рисования утки все еще находится на стадии исследования и пока не является частью продуктов Google.
“Это новая эра для нас”, – сказал Коллинз Bloomberg. “Мы прокладываем путь с точки зрения исследований. Это только начало”.
Google также опубликовал результаты бенчмарков вводящим в заблуждение способом. Компания сравнила лучший результат в известном языковом понимании бенчмарке MMLU, используя более сложный метод подсказок (CoT@32), с стандартным методом бенчмарка, протестированным OpenAI с GPT-4 (5-shot). При использовании метода подсказок 5-shot с Gemini Ultra на MMLU, самая большая модель Google показывает результаты на 2,7% хуже, чем GPT-4.
Хотя Gemini достигла лучшего общего результата MMLU с CoT@32, способ представления этого результата вызывает вопросы. Это показывает, как и поддельное видео в реальном времени, что Google пыталась любой ценой изобразить Gemini как превосходящую GPT-4, а не как приблизительно равную, что, вероятно, ближе к истине.