当前位置:网站首页>为了高性能、超大规模的模型训练,这个组合“出道”了
为了高性能、超大规模的模型训练,这个组合“出道”了
2022-08-09 16:09:00 【dotNET跨平台】
点击上方蓝字
关注我们
(本文阅读时间:3分钟)
近年来,在大量数据上训练的基于 transformer 的大规模深度学习模型在多项认知任务中取得了很好的成果,并且被使用到一些新产品和功能背后,进一步增强了人类的能力。在过去五年中,这些模型的规模增长了几个数量级。从最初的 transformer 模型的几百万个参数一直到最新的 5300 亿个参数的 Megatron-Turing (MT-NLG 530B) 模型(如图所示),客户对于前所未有的大规模训练和微调大型模型的需求越来越强烈。
大模型和硬件能力全景图
Azure 机器学习 (AzureML)带来了大量由 InfiniBand 互连提供支持的最新 GPU,以应对大规模 AI 训练。我们已经在 Azure 上训练了 Megatron/Turing 和 GPT-3这些模型。以前,为了训练这些模型,用户需要设置和维护一个复杂的分布式训练基础设施,通常涉及几个手动的步骤,容易出错,从而导致在可用性和性能方面的体验不佳。
今天,我们很自豪地宣布在我们的软件堆栈中取得突破——使用 DeepSpeed 和 1024 A100 来扩展 2T 参数模型的训练,并在 1K+ GPU 规模上提供精简的用户体验。我们将通过 AzureML(包括充分优化的 PyTorch 环境)为您带来这些软件创新,它为大规模训练提供了出色的性能和易于使用的界面。
如下图所示,微软正在采用全栈优化方法,其中硬件、操作系统、VM image、Docker image(含优化后的PyTorch、DeepSpeed、ONNX 运行时和其他Python包)、面向用户的Azure ML APIs都已经过优化、集成和测试,具有出色的性能和可扩展性。
微软针对 Azure 上可扩展分布式训练的全栈优化
这个优化的堆栈使我们能够使用DeepSpeed on Azure有效地扩展大型模型的训练。与其他云场商发布的数据相比,我们支持 2 倍大的模型大小(2 万亿 vs. 1 万亿参数),扩展到 2 倍的 GPU(1024 vs. 512),以及高达 1.8 倍的计算吞吐量/GPU(150 TFLOPs vs. 81 TFLOPs)。
如果您想更深入地了解性能数据,以及Azure 和 DeepSpeed 如何使您轻松、高效地大规模训练万亿参数模型,请扫码或点击最下方“阅读原文”。原博客文末有丰富的相关资源!
长按识别二维码
点击「阅读原文」前往原博客~
边栏推荐
- 5G NR Paging
- ceph部署
- A51 - 基于STM32的DHT11和LCD显示串口通信仿真
- Reasons for slow startup of IDEA (1)
- Use SourceTree to add SSH public key and clone the code cloud project (note finishing)
- 2019强网杯高明的黑客
- 中科院打脸谷歌:普通电脑追上量子优越性,几小时搞定原本要一万年的计算...
- PADS generates bitmap
- Video chat source code - how to improve the quality of one-to-one live broadcast?
- 期货开户交易所的手续费和查询方法
猜你喜欢
冷冻电镜聚类中心(2D Class)粒子图像的解析
Jenkins使用pipeline部署服务到远程服务器
2022国赛Ezpop
.NET 6学习笔记(4)——解决VS2022中Nullable警告
<IDEA 使用小技巧&&常用键联合操作>
硬件开发的发展前景
程序员的专属浪漫——用3D Engine 5分钟实现烟花绽放效果
What is control board custom development?
Fees and inquiry methods of futures account opening exchanges
Account opening requirements and exemptions for special futures such as crude oil
随机推荐
CocosCreator accesses WeChat mini-games
程序员的专属浪漫——用3D Engine 5分钟实现烟花绽放效果
2022年中国第三方证券APP创新专题分析
Lagrange插值公式matlab实现
B46 - STM32太阳能充电智能心率监测骑行仪
dichotomy
uniapp project construction
现在,怎么挑选舞台租赁LED显示屏?
How to adjust futures account opening process and handling fee
贫血模型与充血模型
Knowledge Bits - How to Write a Project Summary
CocosCreator接入微信小游戏
B44 - Based on stm32 bluetooth intelligent voice recognition classification broadcast trash
<IDEA 使用小技巧&&常用键联合操作>
Optimization of a piece of JDBC code (Part 1)
MySQL索引的B+树到底有多高?
The Chinese Academy of Sciences slaps Google in the face: ordinary computers catch up with quantum superiority, and can solve calculations that would have taken 10,000 years in a few hours...
MySQL的索引你了解吗
OpenCV 图像变换之 —— 拉伸、收缩、扭曲和旋转
【教程3】疯壳·ARM功能手机-整板资源介绍