Nvidia сохраняет лидерство над Intel в бенчмарке MLPerf 3.1 и анонсировала новый суперкомпьютер.
Результаты последней версии обучающего бенчмарка MLPerf, опубликованные сегодня, показывают, что графический процессор H100 компании Nvidia продолжает лидировать по производительности и универсальности. Однако ИИ-чип Gaudi 2 от Intel демонстрирует значительный скачок производительности по сравнению с предыдущим этапом, обгоняя A100 и значительно приближаясь к H100, например, при обучении больших языковых моделей. Аналитики ожидают появления Gaudi 3 уже в 2024 году, когда ИИ-ускоритель Intel наконец-то сможет догнать ускоритель Nvidia, по крайней мере, в некоторых областях.
Однако в бенчмарке Nvidia также показала, что может использовать свой опыт для создания мощнейших систем, которые эффективно масштабируются: в бенчмарке Nvidia впервые показала результаты работы нового суперкомпьютера Eos AI, оснащенного 10752 графическими процессорами H100 и сетью InfiniBand Quantum-2 компании Nvidia.
Eos смог обучить модель GPT-3 со 175 млрд. параметров и 1 млрд. токенов всего за 3,9 минуты. Это почти в три раза превышает предыдущий рекорд в 10,9 минут, установленный Nvidia менее полугода назад с использованием чуть менее 3500 графических процессоров H100. Кроме того, тест показал, что технология Nvidia масштабируется практически без потерь: Утроение числа GPU привело к увеличению производительности в 2,8 раза, что соответствует эффективности 93 %. Это значительное увеличение эффективности по сравнению с прошлым годом, что отчасти объясняется оптимизацией программного обеспечения.
Помимо Nvidia, Microsoft также представила результаты использования Azure HD H100 v5 для системы с 10752 графическими процессорами H100, при этом на обучение GPT-3 ушло чуть менее 4 минут.
Nvidia и Microsoft смогли обучить GPT-3.5 за 8 дней
Для полного обучения современной модели GPT-3 со 175 млрд. параметров и оптимальным объемом данных в 3,7 трлн. токенов, согласно результатам Чинчиллы, Eos от Nvidia, по прогнозам компании, потребуется всего восемь дней – и, таким образом, будет создана модель, более похожая на GPT-3.5, оригинальную модель, лежащую в основе ChatGPT.
Хотя неизвестно, какой объем данных OpenAI использовал для обучения GPT-3.5, известно, что GPT-3 был обучен OpenAI всего на 300-500 млрд. токенов, а GPT-4, по слухам, был обучен на почти 13 трлн. токенов. Оригинальный GPT-3.5, вероятно, находится где-то между ними, хотя компания, похоже, собирается использовать более компактную модель GPT-3.5-turbo.
Впервые обучение Stable Diffusion было включено в бенчмарк MLPerf: при использовании 1024 графических процессоров Nvidia H100 это заняло 2,5 минуты, при использовании 64 H100 – 10 минут, т.е. обучение диффузионной модели не так эффективно, как обучение больших языковых моделей. Gaudi 2 от Intel занял чуть менее 20 минут при использовании 64 ускорителей.
Среди организаций, поддерживающих бенчмарки MLPerf, – Amazon, Arm, Baidu, Google, Гарвард, HPE, Intel, Lenovo, Microsoft, Nvidia, Стэнфордский университет и Университет Торонто. Тесты отличаются прозрачностью и объективностью, поэтому пользователи могут полагаться на их результаты при принятии взвешенных решений о покупке.