当前位置:网站首页>一文读懂 高性能可预期数据中心网络
一文读懂 高性能可预期数据中心网络
2022-08-11 03:47:00 【凌云时刻】
在刚刚结束的首届中国算力大会上,阿里云磐久基础设施吸引了众多关注。期间,“如何实现高性能网络的高效稳定运行”成为了客户询问最多的问题,本文借此为大家揭秘“磐久可预期网络”背后的核心科技。
磐久可预期网络
近年来人工智能产业快速增长,但 GPU 算力的增长速率始终无法满足人工智能应用的需求,因而分布式机器学习模式成为业界常态。让数量巨大的异构计算资源高效协同工作,并不是一件容易的事情,高性能网络,就是其中关键的使能技术。
磐久可预期网络,是阿里云自研的高性能可预期数据中心网络,是以应用为中心,通过“阿里云全栈自研+端网融合技术”实现高性能可预期的网络系统。
整个系统通过阿里云自研交换机、自研网卡、自研高性能网络协议栈,打造了一个硬核的技术底座,并通过创新的端网融合技术使各个自研组件可以高效的协同,具有大规模、高带宽、低延时、高可靠、性能可预期等诸多显著优势,为阿里云的超大规模计算、存储集群提供了一个坚实网络底座。
图 | 磐久可预期网络展览现场
三大核心技术展示
高性能网络架构
为了优化出最佳的算力能效,阿里云自研了 High Performance Network(HPN)高性能网络架构,采用双平面转发的 2 层 clos 无收敛结构,可支持最多超过 1 万张 A100 GPU 的算力集群,实现万卡 GPU 集群内部任意两点之间理论最小的静态转发时延,更多的转发链路也使得哈希拥塞的概率尽量低,整体上实现集群算力性能的最优。
此外,双平面的架构设计,使得单一设备或者单一平面的网络故障都不会对整集群网络产生影响,再加上去堆叠双上联的服务接入,使得整个网络集群稳定可靠,为用户提供持续的网络服务能力,用户不用担心数据中心网络软硬件故障造成的影响。

图 | 高性能可预期数据中心网络架构图
端网融合全栈自研
自研交换机
高性能网络集群内部所有网络设备和光互联组件,均实现了自主研发,基于 AliNOS 的软件系统有效打通了单设备与整网维度的监管控能力,快速迭代新功能的同时实现了监管控一体化,全自研的硬件设备完全契合阿里云的场景进行了模块化设计,实现了成本、供应、运维能力的多维度自主控制。

图 | 端网融合全栈自研
自研高性能协议栈
当前业界最广泛使用的高性能协议栈是 IB 和 RoCEv2,但两者在大规模应用上均存在一定不足(IB 设备昂贵,和以太网无法互通,用户往往需要搭建一张昂贵的 IB 专网;RoCEv2 协议启用 PFC 技术,导致存在巨大的稳定性风险,规模受限)。
在经过几年 RoCEv2 的大规模实践后,阿里云从 2019 年开始自主研发高性能网络协议 Solar-RDMA。Solar-RDMA 协议通过阿里自研的端网融合 HPCC 拥塞控制算法可以显著降低交换机队列抖动,在实现免 PFC 部署的同时,获得高带宽和低时延,确保数据以最短的时间在节点之间传输,从而保证算力的持续最大输出。
自研高性能网卡
为了真正的实现高性能,阿里云在 2020 年着手为 Solar-RDMA 协议设计硬件卸载方案,并在 2021 年成功自研了承载了该协议的高性能网卡 FIC(Fusion Intelligence Card)。目前 FIC 卡已经规模化上线。
平台化服务
高性能网络的高效稳定运行,始终是客户的核心诉求。
为实现这个目标,阿里云自研 NUSA(Network Unified Service Architecture)服务平台,提供了从研发、测试、交付、运营和变更端到端的网络自动化服务能力。
基于创新的端网融合技术体系,NUSA 提供了高性能网络自动化开通服务,自动化网络性能测量和诊断服务,自动化网络故障监控、告警和定位服务,全网资源管理和高性能网络虚拟化服务。
通过端网融合关键技术,阿里云开启了数据中心网络可预期的新时代,为集群算力的持续稳定输出提供了底层网络保障。
未来,阿里云将面向更丰富的通信语义、更高带宽、更低时延和更好用的方向持续演进。(正文完)
边栏推荐
- 【FPGA】day22-SPI protocol loopback
- MongoDB 基础了解(二)
- 云平台下ESB产品开发步骤说明
- pathman_config、pathman_config_params 删除后,如何重建?
- MySQL数据库存储引擎以及数据库的创建、修改与删除
- 【FPGA】SDRAM
- What should I do if the channel ServerID is incorrect when EasyCVR is connected to a Hikvision Dahua device and selects another cluster server?
- rac备库双节点查询到的表最后更新时间不一致
- Watch to monitor
- 浅析一下期货程序化交易好还是手工单好?
猜你喜欢

移动端地图开发选择哪家?

互换性与测量技术——表面粗糙度选取和标注方法
![Binary tree related code questions [more complete] C language](/img/85/a109eed69cd54be3c8290e8dd67b7c.png)
Binary tree related code questions [more complete] C language

图解LeetCode——640. 求解方程(难度:中等)

【FPGA】名词缩写

The last update time of the tables queried by the two nodes of the rac standby database is inconsistent

Unity2D animation (1) introduction to Unity scheme - animation system composition and the function of use
![[C Language] Getting Started](/img/5e/484e3d426a6f1cc0d792a9ba330695.png)
[C Language] Getting Started

CTO说MySQL单表行数不要超过2000w,为啥?

Day20 FPGA 】 【 - block the I2C read and write EEPROM
随机推荐
Build Zabbix Kubernetes cluster monitoring platform
leetCode刷题14天二叉树系列之《 110 平衡二叉树判断》
App基本框架搭建丨日志管理 - KLog
Uni - app - access to Chinese characters, pinyin initials (according to the Chinese get pinyin initials)
构建程序化交易系统需要注意什么问题?
MongoDB 基础了解(二)
多串口RS485工业网关BL110
How can users overcome emotional issues in programmatic trading?
程序化交易的策略类型可以分为哪几种?
Environment configuration of ESP32 (arduino arduino2.0 VScode platform which is easy to use?)
Binary tree related code questions [more complete] C language
What is third-party payment?
Rotary array problem: how to realize the array "overall reverse, internal orderly"?"Three-step conversion method" wonderful array
【FPGA】day22-SPI协议回环
浮点数在内存中的存储方式
Paper Accuracy - 2017 CVPR "High-Resolution Image Inpainting using Multi-Scale Neural Patch Synthesis"
What kind of programming trading strategy types can be divided into?
图解LeetCode——640. 求解方程(难度:中等)
leetcode刷题第13天二叉树系列之《98 BST及其验证》
The last update time of the tables queried by the two nodes of the rac standby database is inconsistent