当前位置:网站首页>一文读懂 高性能可预期数据中心网络
一文读懂 高性能可预期数据中心网络
2022-08-11 03:47:00 【凌云时刻】
在刚刚结束的首届中国算力大会上,阿里云磐久基础设施吸引了众多关注。期间,“如何实现高性能网络的高效稳定运行”成为了客户询问最多的问题,本文借此为大家揭秘“磐久可预期网络”背后的核心科技。
磐久可预期网络
近年来人工智能产业快速增长,但 GPU 算力的增长速率始终无法满足人工智能应用的需求,因而分布式机器学习模式成为业界常态。让数量巨大的异构计算资源高效协同工作,并不是一件容易的事情,高性能网络,就是其中关键的使能技术。
磐久可预期网络,是阿里云自研的高性能可预期数据中心网络,是以应用为中心,通过“阿里云全栈自研+端网融合技术”实现高性能可预期的网络系统。
整个系统通过阿里云自研交换机、自研网卡、自研高性能网络协议栈,打造了一个硬核的技术底座,并通过创新的端网融合技术使各个自研组件可以高效的协同,具有大规模、高带宽、低延时、高可靠、性能可预期等诸多显著优势,为阿里云的超大规模计算、存储集群提供了一个坚实网络底座。
图 | 磐久可预期网络展览现场
三大核心技术展示
高性能网络架构
为了优化出最佳的算力能效,阿里云自研了 High Performance Network(HPN)高性能网络架构,采用双平面转发的 2 层 clos 无收敛结构,可支持最多超过 1 万张 A100 GPU 的算力集群,实现万卡 GPU 集群内部任意两点之间理论最小的静态转发时延,更多的转发链路也使得哈希拥塞的概率尽量低,整体上实现集群算力性能的最优。
此外,双平面的架构设计,使得单一设备或者单一平面的网络故障都不会对整集群网络产生影响,再加上去堆叠双上联的服务接入,使得整个网络集群稳定可靠,为用户提供持续的网络服务能力,用户不用担心数据中心网络软硬件故障造成的影响。
图 | 高性能可预期数据中心网络架构图
端网融合全栈自研
自研交换机
高性能网络集群内部所有网络设备和光互联组件,均实现了自主研发,基于 AliNOS 的软件系统有效打通了单设备与整网维度的监管控能力,快速迭代新功能的同时实现了监管控一体化,全自研的硬件设备完全契合阿里云的场景进行了模块化设计,实现了成本、供应、运维能力的多维度自主控制。
图 | 端网融合全栈自研
自研高性能协议栈
当前业界最广泛使用的高性能协议栈是 IB 和 RoCEv2,但两者在大规模应用上均存在一定不足(IB 设备昂贵,和以太网无法互通,用户往往需要搭建一张昂贵的 IB 专网;RoCEv2 协议启用 PFC 技术,导致存在巨大的稳定性风险,规模受限)。
在经过几年 RoCEv2 的大规模实践后,阿里云从 2019 年开始自主研发高性能网络协议 Solar-RDMA。Solar-RDMA 协议通过阿里自研的端网融合 HPCC 拥塞控制算法可以显著降低交换机队列抖动,在实现免 PFC 部署的同时,获得高带宽和低时延,确保数据以最短的时间在节点之间传输,从而保证算力的持续最大输出。
自研高性能网卡
为了真正的实现高性能,阿里云在 2020 年着手为 Solar-RDMA 协议设计硬件卸载方案,并在 2021 年成功自研了承载了该协议的高性能网卡 FIC(Fusion Intelligence Card)。目前 FIC 卡已经规模化上线。
平台化服务
高性能网络的高效稳定运行,始终是客户的核心诉求。
为实现这个目标,阿里云自研 NUSA(Network Unified Service Architecture)服务平台,提供了从研发、测试、交付、运营和变更端到端的网络自动化服务能力。
基于创新的端网融合技术体系,NUSA 提供了高性能网络自动化开通服务,自动化网络性能测量和诊断服务,自动化网络故障监控、告警和定位服务,全网资源管理和高性能网络虚拟化服务。
通过端网融合关键技术,阿里云开启了数据中心网络可预期的新时代,为集群算力的持续稳定输出提供了底层网络保障。
未来,阿里云将面向更丰富的通信语义、更高带宽、更低时延和更好用的方向持续演进。(正文完)
边栏推荐
- Day20 FPGA 】 【 - block the I2C read and write EEPROM
- Watch to monitor
- 移动端地图开发选择哪家?
- QueryDet: Cascading Sparse Query Accelerates Small Object Detection at High Resolution
- Element's BFC attribute
- uni-app - city selection index list / city list sorted by A-Z (uview component library IndexList index list)
- 【愚公系列】2022年08月 Go教学课程 036-类型断言
- Qnet Weak Network Test Tool Operation Guide
- Interchangeability Measurements and Techniques - Calculation of Deviations and Tolerances, Drawing of Tolerance Charts, Selection of Fits and Tolerance Classes
- 元素的BFC属性
猜你喜欢
Build Zabbix Kubernetes cluster monitoring platform
Rotary array problem: how to realize the array "overall reverse, internal orderly"?"Three-step conversion method" wonderful array
Environment configuration of ESP32 (arduino arduino2.0 VScode platform which is easy to use?)
【C语言】入门
EasyCVR接入GB28181设备时,设备接入正常但视频无法播放是什么原因?
CTO说MySQL单表行数不要超过2000w,为啥?
互换性测量与技术——偏差与公差的计算,公差图的绘制,配合与公差等级的选择方法
Description of ESB product development steps under cloud platform
[FPGA] day19- binary to decimal (BCD code)
C语言之自定义类型------结构体
随机推荐
App基本框架搭建丨日志管理 - KLog
Is Redis old?Performance comparison between Redis and Dragonfly
KingbaseES有什么办法,默认不读取sys_catalog下的系统视图?
【FPGA】day18-ds18b20实现温度采集
"Life Is Like First Seen" is ill-fated, full of characters, and the contrast of Zhu Yawen's characters is too surprising
我的 archinstall 使用手册
荣威imax8ev魔方电池安全感,背后隐藏着哪些黑化膨胀?
How to delete statements audit log?
元素的BFC属性
【FPGA】day19-二进制转换为十进制(BCD码)
【FPGA】day21-移动平均滤波器
C language recv() function, recvfrom() function, recvmsg() function
移动端地图开发选择哪家?
MYSQLg advanced ------ return table
构建程序化交易系统需要注意什么问题?
轮转数组问题:如何实现数组“整体逆序,内部有序”?“三步转换法”妙转数组
使用jackson解析json数据详讲
Interchangeability Measurements and Techniques - Calculation of Deviations and Tolerances, Drawing of Tolerance Charts, Selection of Fits and Tolerance Classes
C语言之自定义类型------结构体
Multi-serial port RS485 industrial gateway BL110